EDA Notebook¶

Contents:¶

  1. Loading Data
  2. Investigating Data structure
  3. Checking for unique values, missing data and zeros
  4. Checking for Anomalies
  5. Statistical summary for the data
  6. Correlation
  7. Visulaizing Trends
  8. Hypothesis testing

Importing libraries¶

In [2]:
import os
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import sklearn

Display options¶

In [3]:
pd.set_option("display.max_rows", None)
pd.set_option("display.max_columns", None)
pd.set_option("display.width", None)

1. Loading Data¶

In [6]:
df = pd.read_csv("monthly_main_category (1).csv",index_col=0)
df
Out[6]:
date Arts & Entertainment Autos & Vehicles Beauty & Fitness Books & Literature Business & Industrial Computers & Electronics Finance Food & Drink Games Health Hobbies & Leisure Home & Garden Internet & Telecom Jobs & Education Law & Government News Online Communities People & Society Pets & Animals Real Estate Reference Science Shopping Sports Travel
0 2004-01-01 7 5 7 19 18 29 6 7 4 9 13 10 18 4 9 8 2 10 10 6 9 28 13 3 13
1 2004-02-01 7 8 7 18 18 34 4 7 4 9 14 9 19 4 11 7 2 9 7 6 8 39 13 3 14
2 2004-03-01 8 7 8 27 26 39 6 7 4 12 11 13 20 7 14 10 3 13 7 4 10 41 15 3 18
3 2004-04-01 8 9 10 29 20 34 5 8 5 13 12 9 19 5 12 9 3 13 12 5 11 37 14 3 16
4 2004-05-01 8 7 9 26 20 36 5 8 4 10 12 12 19 6 21 10 3 12 5 8 12 37 17 3 13
5 2004-06-01 8 8 9 23 21 34 4 9 5 10 11 11 22 12 18 11 3 11 10 3 8 31 13 4 15
6 2004-07-01 11 8 10 21 21 40 6 8 6 11 14 12 24 39 17 21 5 14 11 3 10 31 17 4 14
7 2004-08-01 11 9 10 25 18 43 7 8 6 9 11 10 23 14 12 15 5 13 8 4 10 29 18 5 19
8 2004-09-01 10 11 10 20 20 41 5 8 5 10 13 11 23 10 14 14 5 14 12 6 11 37 16 4 14
9 2004-10-01 10 9 10 29 21 39 6 9 5 12 18 11 19 6 16 11 4 14 14 3 13 36 16 4 14
10 2004-11-01 10 8 11 29 22 40 5 9 6 12 15 10 26 5 17 14 4 16 8 5 13 40 17 4 14
11 2004-12-01 12 10 11 29 26 47 7 12 5 15 20 14 26 6 18 15 5 18 11 6 14 47 22 5 18
12 2005-01-01 12 10 11 22 18 39 5 8 6 10 14 13 22 7 14 14 4 13 7 4 10 31 17 5 14
13 2005-02-01 12 10 13 25 23 45 6 13 6 12 17 10 26 8 14 14 5 16 10 4 12 38 19 6 14
14 2005-03-01 13 11 13 27 28 47 6 11 7 16 15 17 30 11 14 17 5 18 14 7 15 51 18 5 20
15 2005-04-01 14 11 13 28 25 47 5 9 6 13 15 19 28 7 14 16 5 18 15 8 14 44 17 6 20
16 2005-05-01 13 10 12 27 25 44 5 8 6 11 15 16 25 6 15 18 5 18 12 9 12 37 18 6 17
17 2005-06-01 14 12 16 27 21 45 6 10 8 13 14 13 29 21 16 22 6 16 10 8 13 35 19 6 19
18 2005-07-01 17 13 17 28 25 50 8 9 8 14 17 15 34 55 24 32 8 20 11 9 14 36 21 7 21
19 2005-08-01 16 14 16 24 22 50 6 8 9 13 14 14 33 17 17 23 8 19 13 8 14 28 22 7 22
20 2005-09-01 14 11 13 30 23 45 7 9 7 12 16 16 31 14 18 22 7 17 14 6 16 36 20 7 18
21 2005-10-01 13 12 12 32 23 46 7 12 7 12 16 12 30 7 18 19 6 21 12 6 16 40 16 8 18
22 2005-11-01 15 13 14 32 26 45 6 9 8 14 16 14 33 7 18 25 6 23 15 9 17 40 21 8 19
23 2005-12-01 19 14 17 39 32 52 9 10 9 16 21 16 35 8 19 26 7 22 10 6 18 51 22 9 21
24 2006-01-01 17 11 12 28 22 44 7 9 10 12 16 14 33 9 15 22 7 20 11 8 14 32 20 8 15
25 2006-02-01 18 11 15 30 27 50 7 9 8 17 15 14 32 11 18 25 7 22 13 9 16 35 19 9 15
26 2006-03-01 18 14 16 35 32 53 9 10 8 19 17 15 36 14 20 24 8 24 14 8 16 49 21 7 21
27 2006-04-01 21 14 19 38 30 55 9 13 11 17 18 22 38 10 21 29 8 26 11 10 17 47 22 9 23
28 2006-05-01 19 15 19 40 30 51 10 12 10 16 16 18 36 9 19 27 8 25 13 12 16 41 22 10 20
29 2006-06-01 22 13 18 32 27 54 9 11 13 14 17 15 40 31 24 31 9 24 14 11 14 35 21 13 19
30 2006-07-01 26 16 20 30 30 60 10 12 15 16 17 18 45 67 29 40 11 28 14 8 17 33 24 12 22
31 2006-08-01 28 17 21 35 28 61 9 12 17 16 17 17 45 27 24 37 12 29 14 10 18 32 24 12 23
32 2006-09-01 25 15 18 37 28 56 9 15 15 15 21 16 46 18 22 32 11 31 18 9 18 36 21 12 21
33 2006-10-01 23 14 18 34 27 58 9 14 15 15 22 14 49 10 22 28 10 29 18 10 19 41 23 11 22
34 2006-11-01 25 15 21 46 32 60 13 14 12 19 19 20 47 10 23 32 11 32 18 14 21 50 24 14 24
35 2006-12-01 31 16 20 46 34 70 11 14 14 20 29 20 50 11 24 35 11 35 16 10 23 47 29 18 24
36 2007-01-01 30 15 21 37 28 66 9 13 18 17 19 18 52 13 34 34 12 32 18 11 19 36 25 15 21
37 2007-02-01 33 17 22 44 33 70 9 15 19 19 22 20 52 15 26 35 12 35 18 12 21 47 28 15 21
38 2007-03-01 35 18 25 46 40 73 11 17 20 23 23 23 58 21 26 37 13 39 19 14 25 52 27 16 22
39 2007-04-01 36 19 25 45 37 73 9 15 22 21 23 22 65 19 26 36 14 40 17 15 25 49 26 19 29
40 2007-05-01 36 19 26 46 35 71 11 16 24 20 21 22 53 16 24 37 13 39 19 15 25 46 26 18 24
41 2007-06-01 40 19 29 43 34 73 10 16 35 18 21 22 55 31 29 41 15 44 20 16 24 40 28 19 25
42 2007-07-01 48 19 29 46 38 80 12 17 40 20 23 24 61 93 41 48 16 48 19 17 23 47 32 25 29
43 2007-08-01 50 19 29 49 34 80 12 17 41 19 24 23 58 36 34 46 16 49 19 15 23 40 29 24 28
44 2007-09-01 41 18 23 43 32 74 11 19 33 17 27 19 60 24 31 40 15 45 18 15 22 41 27 22 23
45 2007-10-01 40 19 24 44 34 76 11 18 26 19 27 21 58 14 27 36 15 42 16 14 25 45 27 19 26
46 2007-11-01 41 21 25 53 39 76 13 17 27 22 24 23 58 14 30 37 14 44 22 17 30 51 26 20 25
47 2007-12-01 48 22 25 51 38 84 13 18 34 21 39 25 68 15 27 40 16 46 19 14 29 48 31 19 27
48 2008-01-01 45 19 25 42 35 80 12 17 40 18 23 22 59 19 26 40 14 46 18 14 24 39 27 20 22
49 2008-02-01 43 19 25 41 37 76 12 16 33 19 23 22 62 23 26 38 14 43 22 16 25 42 27 23 23
50 2008-03-01 49 21 30 54 45 88 14 20 35 24 28 25 66 29 30 43 16 50 20 16 32 54 31 22 29
51 2008-04-01 49 22 31 49 41 84 14 18 35 23 25 25 63 20 31 44 16 51 21 20 29 52 27 20 29
52 2008-05-01 55 22 33 50 40 86 16 19 42 23 24 27 66 24 34 46 17 53 23 19 29 49 31 24 28
53 2008-06-01 60 23 34 48 41 87 14 21 56 21 24 26 67 68 45 50 17 60 24 17 29 48 34 30 29
54 2008-07-01 64 24 36 45 43 92 13 21 60 24 30 27 72 100 52 56 19 62 23 21 26 46 35 32 31
55 2008-08-01 68 23 37 47 39 96 16 24 67 22 32 28 76 52 48 50 19 64 23 18 28 45 34 32 29
56 2008-09-01 50 23 28 40 32 85 16 26 52 18 34 23 69 25 34 44 16 60 21 19 23 42 28 24 25
57 2008-10-01 53 23 29 50 42 91 20 20 37 22 26 25 68 21 39 45 16 48 23 16 31 56 30 24 29
58 2008-11-01 53 25 31 57 43 92 19 22 36 24 30 27 70 26 40 48 16 53 26 17 34 66 32 25 31
59 2008-12-01 56 21 29 48 40 93 17 22 43 22 40 23 73 20 35 52 17 53 25 14 29 54 32 25 26
60 2009-01-01 61 21 30 50 40 89 15 24 53 23 27 26 73 23 30 50 17 58 22 18 30 45 32 23 27
61 2009-02-01 67 22 34 56 41 100 16 27 58 25 30 28 81 39 35 46 18 62 26 16 32 51 33 23 29
62 2009-03-01 65 26 38 61 47 96 17 27 51 29 32 30 78 33 34 47 19 61 26 20 35 60 33 22 30
63 2009-04-01 67 27 39 59 48 95 16 26 52 29 31 30 79 27 34 48 19 63 30 18 34 56 34 24 31
64 2009-05-01 62 26 35 52 42 85 16 25 60 28 26 31 70 29 43 51 19 62 25 19 32 48 31 26 27
65 2009-06-01 71 25 37 45 41 81 14 25 74 26 25 26 68 62 38 51 19 65 25 19 29 41 32 34 28
66 2009-07-01 76 26 40 49 44 90 14 26 78 27 29 28 77 76 38 50 21 73 27 20 28 46 35 29 32
67 2009-08-01 74 28 38 50 40 88 14 34 77 24 35 29 78 39 35 46 22 76 26 20 29 41 35 32 32
68 2009-09-01 65 27 36 47 38 79 14 28 68 24 36 25 70 24 31 43 21 64 25 17 27 34 31 28 27
69 2009-10-01 63 28 37 53 49 85 16 26 51 31 28 31 69 27 34 48 21 59 27 18 34 56 32 28 29
70 2009-11-01 67 24 33 54 41 82 16 26 53 27 41 27 68 21 32 56 21 58 27 15 33 57 31 34 29
71 2009-12-01 71 29 35 57 47 93 21 31 59 31 43 34 79 22 32 49 23 68 35 20 33 62 34 26 30
72 2010-01-01 66 28 33 51 56 80 17 29 61 26 30 31 70 21 32 49 22 63 29 19 31 47 31 36 29
73 2010-02-01 72 28 35 50 41 86 15 30 69 26 33 35 72 40 33 47 25 66 30 18 30 46 34 29 29
74 2010-03-01 66 28 37 58 45 84 17 30 52 30 32 37 69 32 38 47 25 62 33 20 33 63 33 28 34
75 2010-04-01 70 29 39 62 46 81 16 30 55 30 32 36 68 27 34 46 27 63 34 19 33 56 33 33 34
76 2010-05-01 67 29 37 58 44 74 19 30 62 29 29 35 65 28 37 45 26 63 30 20 31 51 33 32 32
77 2010-06-01 76 30 41 49 40 75 17 29 81 26 29 37 66 55 37 48 28 66 30 22 32 42 35 40 32
78 2010-07-01 76 31 41 49 41 76 16 30 76 26 32 31 68 52 35 48 32 69 31 23 29 42 34 36 33
79 2010-08-01 63 28 34 45 33 69 14 34 65 21 33 25 62 30 30 42 31 64 27 21 25 33 30 33 28
80 2010-09-01 55 26 31 42 31 65 13 26 46 20 33 24 57 22 27 38 28 52 24 18 26 35 29 26 26
81 2010-10-01 53 28 30 53 40 67 16 26 36 24 26 28 57 19 30 39 28 49 26 21 29 46 28 27 28
82 2010-11-01 54 25 30 49 31 61 15 25 40 21 36 24 55 14 29 42 28 48 22 17 25 43 28 25 26
83 2010-12-01 52 26 29 45 34 60 15 27 39 23 34 25 55 15 27 43 29 47 27 17 28 45 27 27 28
84 2011-01-01 67 34 39 56 43 78 19 35 61 26 34 31 71 23 43 64 39 70 31 21 33 44 34 31 30
85 2011-02-01 86 25 41 64 38 85 24 36 87 23 36 31 81 36 100 100 59 78 32 18 40 38 32 22 27
86 2011-03-01 83 34 49 73 46 96 23 40 68 29 42 36 86 36 90 98 64 73 38 22 44 52 37 24 29
87 2011-04-01 86 42 60 76 53 96 23 45 68 34 42 42 90 30 69 95 68 78 40 26 41 58 40 35 36
88 2011-05-01 83 42 55 71 51 93 23 44 82 34 40 42 84 36 62 85 65 80 41 29 40 53 42 37 36
89 2011-06-01 95 42 61 69 48 94 21 45 94 33 42 44 90 58 59 75 69 90 43 30 37 57 45 37 37
90 2011-07-01 100 43 64 67 54 95 22 45 99 31 51 41 95 70 60 86 76 91 41 27 38 54 47 45 39
91 2011-08-01 86 42 56 59 48 87 24 56 92 29 57 37 86 44 62 75 74 89 39 30 37 51 42 43 36
92 2011-09-01 85 45 59 66 48 90 30 42 68 32 45 39 91 37 57 75 71 74 40 30 41 53 47 41 37
93 2011-10-01 75 43 55 69 53 88 30 44 50 33 45 38 88 29 60 68 67 70 38 28 41 63 42 33 37
94 2011-11-01 80 40 51 68 46 85 24 42 59 31 54 33 85 20 61 89 70 71 39 22 39 58 43 31 32
95 2011-12-01 81 47 58 72 53 93 25 47 60 36 60 41 94 25 60 85 78 78 44 28 42 64 46 32 35
96 2012-01-01 84 49 55 64 50 85 24 48 80 33 47 42 85 28 49 66 76 79 40 25 36 49 45 36 33
97 2012-02-01 82 54 56 68 50 92 21 47 72 33 45 40 88 39 51 68 85 77 43 28 37 50 45 29 31
98 2012-03-01 78 65 58 71 54 96 22 49 59 36 50 44 86 30 48 61 83 78 45 27 39 59 46 24 34
99 2012-04-01 80 68 59 64 55 87 19 48 60 35 43 40 83 27 47 66 88 77 40 27 37 56 42 28 35
100 2012-05-01 86 68 58 61 49 81 20 48 84 33 39 43 79 41 53 83 84 85 42 29 37 49 42 27 35
101 2012-06-01 92 71 63 61 46 82 19 48 95 32 40 44 84 42 59 82 89 85 44 26 38 43 46 32 37
102 2012-07-01 86 72 62 57 51 78 18 57 93 31 52 43 84 60 54 61 84 90 40 31 38 45 46 31 39
103 2012-08-01 81 72 61 55 49 79 19 52 84 30 56 40 82 38 56 58 78 81 42 30 35 42 45 32 40
104 2012-09-01 79 73 61 65 53 82 21 48 64 35 44 46 86 37 55 50 74 75 46 33 40 52 47 28 40
105 2012-10-01 74 78 55 63 51 77 19 44 55 33 60 39 84 21 47 47 76 67 42 29 40 55 44 25 36
106 2012-11-01 71 80 54 67 53 79 19 47 52 34 42 39 86 21 51 56 75 67 39 27 41 57 44 27 33
107 2012-12-01 76 79 53 70 49 80 21 46 60 34 50 40 90 21 72 66 86 72 44 29 40 55 45 25 34
108 2013-01-01 80 81 55 64 50 81 25 48 81 32 46 42 88 28 42 52 85 78 44 31 38 46 47 22 34
109 2013-02-01 75 82 59 68 53 86 22 49 70 34 46 43 92 29 43 49 87 72 47 31 41 51 47 26 33
110 2013-03-01 75 90 64 71 55 83 21 51 61 38 50 46 88 27 43 50 89 71 48 33 41 57 47 27 35
111 2013-04-01 72 89 64 65 55 78 27 52 63 38 45 46 86 24 46 46 88 72 49 34 42 52 46 27 37
112 2013-05-01 82 89 65 63 54 74 22 53 82 37 46 46 88 36 46 44 91 81 48 34 39 48 47 27 40
113 2013-06-01 90 98 74 70 52 79 21 57 96 37 48 46 97 48 67 53 100 89 51 32 41 47 51 27 41
114 2013-07-01 91 94 70 78 51 76 22 71 100 33 56 41 95 51 72 78 100 100 47 25 42 43 48 23 36
115 2013-08-01 92 100 72 71 49 76 20 56 87 33 59 46 97 35 61 63 96 85 49 32 41 42 51 25 44
116 2013-09-01 79 96 69 69 55 79 22 52 68 36 46 46 94 36 61 47 86 71 48 35 42 49 50 27 42
117 2013-10-01 73 82 61 67 49 74 19 50 54 36 58 39 91 23 46 43 76 65 44 31 45 49 48 27 36
118 2013-11-01 73 84 62 74 54 76 19 53 53 40 47 48 90 22 48 44 77 64 46 35 48 58 48 27 35
119 2013-12-01 75 86 58 75 56 75 21 55 54 38 55 48 88 24 54 50 73 68 48 34 46 57 49 24 35
120 2014-01-01 88 85 60 69 55 75 20 59 77 37 52 46 90 29 60 52 78 79 53 34 44 46 53 24 36
121 2014-02-01 89 93 70 75 59 81 21 64 83 42 57 51 100 36 51 46 86 83 58 39 46 52 56 30 38
122 2014-03-01 81 93 68 75 59 79 24 59 61 41 58 51 91 29 51 46 81 74 57 41 46 56 53 31 36
123 2014-04-01 81 89 66 76 57 73 23 61 56 43 54 52 89 26 47 44 75 72 53 39 47 57 50 37 43
124 2014-05-01 91 93 71 75 57 75 21 63 75 42 53 56 88 39 52 53 78 83 56 39 48 55 53 36 44
125 2014-06-01 93 96 76 74 59 72 22 65 87 43 70 55 92 41 54 48 81 86 67 39 46 51 55 54 47
126 2014-07-01 88 92 71 69 58 69 23 79 76 41 83 45 89 45 54 49 76 85 100 40 41 45 56 42 55
127 2014-08-01 96 97 79 76 66 76 23 63 70 46 62 53 99 42 58 48 74 83 65 51 48 52 65 34 66
128 2014-09-01 86 91 72 74 60 70 24 60 56 45 61 47 93 37 59 45 66 72 56 43 47 53 55 35 52
129 2014-10-01 78 87 67 78 59 69 23 62 48 46 70 47 89 28 53 43 65 68 58 41 49 57 57 32 45
130 2014-11-01 76 87 65 85 60 71 25 65 44 48 58 51 84 30 58 48 64 70 57 39 53 66 55 31 42
131 2014-12-01 79 89 67 85 61 73 25 70 49 51 70 52 83 31 58 47 66 76 59 40 54 67 59 33 46
132 2015-01-01 84 88 66 76 61 70 25 72 66 46 65 53 83 36 60 51 64 82 62 38 49 56 61 38 44
133 2015-02-01 79 87 66 83 62 72 27 71 54 47 59 52 81 36 69 55 61 78 62 41 50 60 59 33 43
134 2015-03-01 78 84 66 80 64 71 25 69 46 50 68 56 82 30 56 46 58 75 62 42 53 64 58 31 48
135 2015-04-01 79 83 69 80 62 70 24 70 49 50 63 57 79 26 51 45 60 74 61 44 52 60 61 34 48
136 2015-05-01 84 86 72 78 62 65 24 69 62 51 59 59 79 43 55 47 60 80 63 46 51 59 60 41 51
137 2015-06-01 84 82 70 81 59 65 24 83 64 47 70 55 74 42 52 45 63 82 61 45 45 52 59 41 52
138 2015-07-01 86 85 80 81 60 67 29 79 60 51 81 52 81 53 57 57 62 83 63 48 46 52 67 48 64
139 2015-08-01 88 87 84 84 70 70 29 69 54 57 64 69 83 44 62 59 59 78 62 60 52 58 69 46 72
140 2015-09-01 81 79 74 79 60 64 26 67 46 51 81 52 80 33 61 48 58 70 58 51 50 54 62 44 59
141 2015-10-01 73 78 69 83 61 62 28 67 35 54 62 55 75 27 57 55 52 68 54 48 55 66 60 43 50
142 2015-11-01 72 75 66 84 65 65 30 68 34 55 61 53 76 24 57 58 51 68 57 44 57 68 61 37 47
143 2015-12-01 75 75 69 82 64 66 26 71 37 57 73 56 76 24 56 51 48 74 60 43 56 67 65 36 47
144 2016-01-01 89 81 72 87 65 65 28 73 54 54 66 58 76 32 56 57 66 82 64 50 59 61 65 45 47
145 2016-02-01 89 79 75 92 72 68 34 70 50 57 67 65 80 46 57 56 66 81 65 53 61 64 66 47 47
146 2016-03-01 82 81 78 94 76 66 42 69 40 63 74 65 75 28 57 58 62 79 65 50 66 73 63 52 49
147 2016-04-01 81 78 77 85 75 62 42 68 41 60 65 64 72 28 55 54 60 76 62 50 65 68 62 53 56
148 2016-05-01 85 82 80 85 72 63 41 71 55 60 69 67 72 51 57 55 65 84 66 52 63 67 64 53 57
149 2016-06-01 94 78 80 80 67 57 37 97 60 56 76 64 71 45 54 54 61 90 63 50 51 55 61 58 56
150 2016-07-01 100 91 95 90 74 67 51 75 60 61 90 66 82 64 64 63 67 86 71 61 61 59 76 61 86
151 2016-08-01 91 91 91 84 79 67 52 70 53 61 74 66 78 47 70 55 65 83 67 64 63 66 71 66 78
152 2016-09-01 83 82 78 79 64 61 37 69 43 55 97 57 75 34 63 46 56 77 66 53 60 58 68 50 62
153 2016-10-01 73 80 73 83 75 62 54 69 31 60 64 61 73 26 64 49 52 72 62 57 70 73 61 53 49
154 2016-11-01 71 74 65 84 70 59 100 66 29 57 60 57 67 23 58 53 49 68 57 49 68 72 60 43 46
155 2016-12-01 72 70 65 84 69 60 62 71 34 60 74 64 72 24 59 51 50 72 65 47 67 72 62 48 47
156 2017-01-01 76 71 64 82 76 60 54 71 44 55 63 59 70 35 54 52 47 74 63 51 62 62 61 66 48
157 2017-02-01 76 72 67 86 76 64 80 73 38 59 65 61 73 40 54 51 47 73 67 56 64 62 63 61 48
158 2017-03-01 74 70 71 88 75 62 67 71 31 62 70 62 69 27 55 46 45 72 61 55 66 71 64 43 50
159 2017-04-01 78 70 75 84 78 61 47 70 32 63 66 60 67 25 55 47 47 78 64 54 67 70 62 55 56
160 2017-05-01 76 68 69 77 74 57 43 73 40 61 72 66 62 53 57 43 45 76 62 58 60 66 62 48 52
161 2017-06-01 79 71 76 78 72 54 43 89 41 55 85 71 63 45 55 46 45 75 62 60 51 56 71 47 67
162 2017-07-01 82 78 87 81 85 60 53 71 42 63 68 84 70 56 64 53 47 73 64 75 59 59 75 49 87
163 2017-08-01 72 72 78 77 73 55 47 68 35 61 77 66 63 36 54 44 43 68 57 66 58 58 69 46 75
164 2017-09-01 65 64 68 73 66 54 38 63 29 55 61 52 65 28 50 39 39 62 51 56 59 54 63 51 56
165 2017-10-01 60 62 62 75 72 54 36 62 23 61 51 53 62 25 48 41 35 58 49 50 67 66 57 51 50
166 2017-11-01 57 56 60 73 68 50 34 64 23 58 54 51 57 21 47 40 31 59 48 46 66 62 59 45 45
167 2017-12-01 61 59 60 77 68 55 38 69 25 60 59 57 62 25 49 43 34 61 54 47 70 66 61 50 48
168 2018-01-01 64 56 60 74 61 52 35 70 33 55 54 54 56 36 45 45 31 62 54 48 58 54 60 46 50
169 2018-02-01 56 59 62 77 68 51 36 67 25 58 57 55 56 27 47 43 29 61 53 51 64 61 59 49 49
170 2018-03-01 58 55 63 72 66 51 36 63 25 64 62 58 56 23 48 51 30 60 52 49 64 62 59 47 50
171 2018-04-01 56 54 64 75 67 49 36 64 26 60 66 56 56 23 44 42 29 60 86 48 65 58 57 59 54
172 2018-05-01 58 53 59 66 61 46 36 76 31 56 61 56 55 46 46 41 28 65 48 47 57 52 57 53 48
173 2018-06-01 62 56 69 71 62 49 37 75 36 56 69 56 62 37 49 41 29 63 49 52 56 46 65 77 62
174 2018-07-01 63 60 78 73 74 53 42 65 34 62 59 62 63 63 58 47 29 65 53 73 63 61 71 57 82
175 2018-08-01 61 61 75 72 68 53 45 73 31 62 78 64 62 32 55 47 27 67 52 68 59 52 72 49 79
176 2018-09-01 57 68 74 76 79 55 42 76 27 66 64 76 63 31 62 43 25 63 56 72 67 60 79 55 70
177 2018-10-01 51 63 65 80 82 55 42 75 23 69 59 73 61 24 59 41 23 60 52 68 72 69 76 56 62
178 2018-11-01 52 57 64 79 76 53 40 71 23 65 59 69 57 22 52 44 22 60 55 62 70 66 77 56 58
179 2018-12-01 57 67 68 84 86 59 43 83 28 73 75 88 60 26 56 53 21 66 66 77 76 75 91 66 70
180 2019-01-01 60 66 65 80 79 56 44 79 32 65 69 84 59 34 51 57 22 67 59 76 66 61 90 67 67
181 2019-02-01 59 62 70 82 83 57 48 80 28 67 66 80 60 37 54 60 22 64 61 72 68 60 86 76 68
182 2019-03-01 57 62 71 81 85 60 50 78 26 73 72 83 59 26 55 49 23 67 61 74 72 68 84 67 66
183 2019-04-01 56 57 70 83 79 55 46 71 26 70 68 74 58 23 56 48 24 67 54 66 72 63 75 87 65
184 2019-05-01 63 58 67 71 70 51 46 90 30 63 72 68 55 40 47 39 23 82 51 68 65 60 72 77 62
185 2019-06-01 69 71 85 84 83 63 57 87 33 74 100 92 66 44 56 39 26 72 62 100 73 61 100 68 91
186 2019-07-01 62 73 89 83 95 63 59 87 30 74 75 94 64 59 61 40 25 68 64 94 72 67 99 62 100
187 2019-08-01 60 72 81 76 81 59 59 80 28 71 90 80 66 33 55 36 25 68 64 83 69 58 95 53 93
188 2019-09-01 57 90 73 77 82 58 61 76 24 71 62 79 66 32 60 36 22 61 53 76 76 64 83 52 73
189 2019-10-01 52 63 69 79 83 59 56 76 21 72 62 74 64 24 59 50 22 62 55 72 84 75 80 52 68
190 2019-11-01 52 64 72 81 82 58 52 76 22 76 66 78 62 22 52 49 22 64 58 66 82 74 88 66 68
191 2019-12-01 53 64 71 86 86 63 52 83 24 77 79 83 65 25 53 58 22 67 72 70 88 78 90 85 71
192 2020-01-01 56 63 70 82 81 61 56 80 27 71 69 79 64 36 54 61 23 70 60 69 81 65 88 77 68
193 2020-02-01 56 62 73 84 89 61 56 80 25 75 64 79 64 37 62 61 23 70 59 65 82 67 83 85 66
194 2020-03-01 61 55 74 92 92 66 62 80 29 90 72 79 65 29 67 74 25 78 74 57 84 73 79 45 51
195 2020-04-01 69 47 74 96 90 81 55 100 33 86 75 76 65 39 63 56 24 100 62 48 85 82 72 15 42
196 2020-05-01 66 55 81 90 88 71 52 99 30 92 83 82 62 36 66 58 22 99 61 56 83 100 75 15 41
197 2020-06-01 61 63 89 100 91 72 67 86 30 97 64 90 68 39 75 56 24 82 65 66 89 87 82 28 44
198 2020-07-01 53 64 87 81 81 61 59 83 26 80 79 82 61 26 61 47 21 75 59 68 71 60 79 39 54
199 2020-08-01 55 69 86 80 90 61 66 79 24 82 64 80 60 52 65 51 21 71 56 70 74 66 81 53 67
200 2020-09-01 48 64 78 79 84 56 60 72 21 77 55 72 60 35 65 48 21 65 55 63 76 67 74 61 57
201 2020-10-01 51 60 74 78 84 56 54 72 21 74 55 64 60 33 64 57 22 69 52 56 85 69 72 74 49
202 2020-11-01 51 59 74 92 82 57 55 76 20 80 53 68 60 25 59 69 21 67 50 54 94 78 75 66 39
203 2020-12-01 54 62 77 88 88 62 63 79 22 91 67 69 64 30 61 64 23 73 59 58 100 87 79 80 45
204 2021-01-01 59 65 82 85 84 63 60 80 24 83 65 78 64 19 58 62 22 77 68 57 84 66 80 84 45
205 2021-02-01 57 64 83 85 86 63 63 80 24 82 60 77 64 25 62 75 21 76 60 60 90 74 84 100 44
206 2021-03-01 51 65 83 81 87 61 66 85 22 87 70 85 62 31 57 58 21 76 61 64 91 76 83 75 46
207 2021-04-01 59 61 84 76 89 59 58 97 22 88 79 80 59 24 60 60 21 98 65 58 88 72 79 87 55
208 2021-05-01 59 66 90 78 90 60 58 89 23 98 87 82 59 22 64 60 22 89 69 62 87 76 82 98 64
209 2021-06-01 52 72 96 86 93 63 65 85 22 100 69 91 62 45 65 49 22 75 65 74 91 80 89 65 70
210 2021-07-01 57 69 100 84 98 61 67 89 24 90 92 94 63 32 62 52 20 80 62 78 82 65 95 83 81
211 2021-08-01 54 76 99 84 100 62 64 88 22 98 68 100 64 48 66 51 20 80 69 84 87 77 94 89 86
212 2021-09-01 48 70 87 80 90 62 58 80 21 93 60 86 60 39 65 44 19 72 58 80 88 79 87 63 68
213 2021-10-01 50 67 89 85 88 60 56 80 20 92 66 77 60 37 66 45 19 74 54 71 94 84 84 61 60

2. Investigating data structure¶

In [7]:
df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 214 entries, 0 to 213
Data columns (total 26 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   date                     214 non-null    object
 1   Arts & Entertainment     214 non-null    int64 
 2   Autos & Vehicles         214 non-null    int64 
 3   Beauty & Fitness         214 non-null    int64 
 4   Books & Literature       214 non-null    int64 
 5   Business & Industrial    214 non-null    int64 
 6   Computers & Electronics  214 non-null    int64 
 7   Finance                  214 non-null    int64 
 8   Food & Drink             214 non-null    int64 
 9   Games                    214 non-null    int64 
 10  Health                   214 non-null    int64 
 11  Hobbies & Leisure        214 non-null    int64 
 12  Home & Garden            214 non-null    int64 
 13  Internet & Telecom       214 non-null    int64 
 14  Jobs & Education         214 non-null    int64 
 15  Law & Government         214 non-null    int64 
 16  News                     214 non-null    int64 
 17  Online Communities       214 non-null    int64 
 18  People & Society         214 non-null    int64 
 19  Pets & Animals           214 non-null    int64 
 20  Real Estate              214 non-null    int64 
 21  Reference                214 non-null    int64 
 22  Science                  214 non-null    int64 
 23  Shopping                 214 non-null    int64 
 24  Sports                   214 non-null    int64 
 25  Travel                   214 non-null    int64 
dtypes: int64(25), object(1)
memory usage: 45.1+ KB
In [8]:
df.shape
Out[8]:
(214, 26)
In [9]:
df.dtypes
Out[9]:
date                       object
Arts & Entertainment        int64
Autos & Vehicles            int64
Beauty & Fitness            int64
Books & Literature          int64
Business & Industrial       int64
Computers & Electronics     int64
Finance                     int64
Food & Drink                int64
Games                       int64
Health                      int64
Hobbies & Leisure           int64
Home & Garden               int64
Internet & Telecom          int64
Jobs & Education            int64
Law & Government            int64
News                        int64
Online Communities          int64
People & Society            int64
Pets & Animals              int64
Real Estate                 int64
Reference                   int64
Science                     int64
Shopping                    int64
Sports                      int64
Travel                      int64
dtype: object

3. Checking for unique values, missing data & zeros¶

In [10]:
df.nunique()
#no. of unique values
Out[10]:
date                       214
Arts & Entertainment        75
Autos & Vehicles            77
Beauty & Fitness            76
Books & Literature          72
Business & Industrial       71
Computers & Electronics     60
Finance                     61
Food & Drink                72
Games                       82
Health                      76
Hobbies & Leisure           73
Home & Garden               77
Internet & Telecom          69
Jobs & Education            62
Law & Government            60
News                        67
Online Communities          74
People & Society            71
Pets & Animals              65
Real Estate                 75
Reference                   78
Science                     56
Shopping                    73
Sports                      74
Travel                      67
dtype: int64
In [11]:
df.apply(lambda col: col.unique())
#the unique values themselves
Out[11]:
date                       [2004-01-01, 2004-02-01, 2004-03-01, 2004-04-0...
Arts & Entertainment       [7, 8, 11, 10, 12, 13, 14, 17, 16, 15, 19, 18,...
Autos & Vehicles           [5, 8, 7, 9, 11, 10, 12, 13, 14, 15, 16, 17, 1...
Beauty & Fitness           [7, 8, 10, 9, 11, 13, 12, 16, 17, 14, 15, 19, ...
Books & Literature         [19, 18, 27, 29, 26, 23, 21, 25, 20, 22, 28, 2...
Business & Industrial      [18, 26, 20, 21, 22, 23, 28, 25, 32, 27, 30, 3...
Computers & Electronics    [29, 34, 39, 36, 40, 43, 41, 47, 45, 44, 50, 4...
Finance                    [6, 4, 5, 7, 8, 9, 10, 13, 11, 12, 14, 16, 20,...
Food & Drink               [7, 8, 9, 12, 13, 11, 10, 15, 14, 17, 16, 19, ...
Games                      [4, 5, 6, 7, 8, 9, 10, 11, 13, 15, 17, 12, 14,...
Health                     [9, 12, 13, 10, 11, 15, 16, 14, 17, 19, 20, 23...
Hobbies & Leisure          [13, 14, 11, 12, 18, 15, 20, 17, 16, 21, 22, 1...
Home & Garden              [10, 9, 13, 12, 11, 14, 17, 19, 16, 15, 22, 18...
Internet & Telecom         [18, 19, 20, 22, 24, 23, 26, 30, 28, 25, 29, 3...
Jobs & Education           [4, 7, 5, 6, 12, 39, 14, 10, 8, 11, 21, 55, 17...
Law & Government           [9, 11, 14, 12, 21, 18, 17, 16, 15, 24, 19, 20...
News                       [8, 7, 10, 9, 11, 21, 15, 14, 17, 16, 18, 22, ...
Online Communities         [2, 3, 5, 4, 6, 8, 7, 9, 11, 12, 10, 13, 14, 1...
People & Society           [10, 9, 13, 12, 11, 14, 16, 18, 20, 19, 17, 21...
Pets & Animals             [10, 7, 12, 5, 11, 8, 14, 15, 13, 18, 16, 19, ...
Real Estate                [6, 4, 5, 8, 3, 7, 9, 10, 12, 11, 14, 15, 16, ...
Reference                  [9, 8, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,...
Science                    [28, 39, 41, 37, 31, 29, 36, 40, 47, 38, 51, 4...
Shopping                   [13, 15, 14, 17, 18, 16, 22, 19, 21, 20, 24, 2...
Sports                     [3, 4, 5, 6, 7, 8, 9, 10, 13, 12, 11, 14, 18, ...
Travel                     [13, 14, 18, 16, 15, 19, 20, 17, 21, 22, 23, 2...
dtype: object
In [12]:
for col in df:
    print(df[col].unique())
['2004-01-01' '2004-02-01' '2004-03-01' '2004-04-01' '2004-05-01'
 '2004-06-01' '2004-07-01' '2004-08-01' '2004-09-01' '2004-10-01'
 '2004-11-01' '2004-12-01' '2005-01-01' '2005-02-01' '2005-03-01'
 '2005-04-01' '2005-05-01' '2005-06-01' '2005-07-01' '2005-08-01'
 '2005-09-01' '2005-10-01' '2005-11-01' '2005-12-01' '2006-01-01'
 '2006-02-01' '2006-03-01' '2006-04-01' '2006-05-01' '2006-06-01'
 '2006-07-01' '2006-08-01' '2006-09-01' '2006-10-01' '2006-11-01'
 '2006-12-01' '2007-01-01' '2007-02-01' '2007-03-01' '2007-04-01'
 '2007-05-01' '2007-06-01' '2007-07-01' '2007-08-01' '2007-09-01'
 '2007-10-01' '2007-11-01' '2007-12-01' '2008-01-01' '2008-02-01'
 '2008-03-01' '2008-04-01' '2008-05-01' '2008-06-01' '2008-07-01'
 '2008-08-01' '2008-09-01' '2008-10-01' '2008-11-01' '2008-12-01'
 '2009-01-01' '2009-02-01' '2009-03-01' '2009-04-01' '2009-05-01'
 '2009-06-01' '2009-07-01' '2009-08-01' '2009-09-01' '2009-10-01'
 '2009-11-01' '2009-12-01' '2010-01-01' '2010-02-01' '2010-03-01'
 '2010-04-01' '2010-05-01' '2010-06-01' '2010-07-01' '2010-08-01'
 '2010-09-01' '2010-10-01' '2010-11-01' '2010-12-01' '2011-01-01'
 '2011-02-01' '2011-03-01' '2011-04-01' '2011-05-01' '2011-06-01'
 '2011-07-01' '2011-08-01' '2011-09-01' '2011-10-01' '2011-11-01'
 '2011-12-01' '2012-01-01' '2012-02-01' '2012-03-01' '2012-04-01'
 '2012-05-01' '2012-06-01' '2012-07-01' '2012-08-01' '2012-09-01'
 '2012-10-01' '2012-11-01' '2012-12-01' '2013-01-01' '2013-02-01'
 '2013-03-01' '2013-04-01' '2013-05-01' '2013-06-01' '2013-07-01'
 '2013-08-01' '2013-09-01' '2013-10-01' '2013-11-01' '2013-12-01'
 '2014-01-01' '2014-02-01' '2014-03-01' '2014-04-01' '2014-05-01'
 '2014-06-01' '2014-07-01' '2014-08-01' '2014-09-01' '2014-10-01'
 '2014-11-01' '2014-12-01' '2015-01-01' '2015-02-01' '2015-03-01'
 '2015-04-01' '2015-05-01' '2015-06-01' '2015-07-01' '2015-08-01'
 '2015-09-01' '2015-10-01' '2015-11-01' '2015-12-01' '2016-01-01'
 '2016-02-01' '2016-03-01' '2016-04-01' '2016-05-01' '2016-06-01'
 '2016-07-01' '2016-08-01' '2016-09-01' '2016-10-01' '2016-11-01'
 '2016-12-01' '2017-01-01' '2017-02-01' '2017-03-01' '2017-04-01'
 '2017-05-01' '2017-06-01' '2017-07-01' '2017-08-01' '2017-09-01'
 '2017-10-01' '2017-11-01' '2017-12-01' '2018-01-01' '2018-02-01'
 '2018-03-01' '2018-04-01' '2018-05-01' '2018-06-01' '2018-07-01'
 '2018-08-01' '2018-09-01' '2018-10-01' '2018-11-01' '2018-12-01'
 '2019-01-01' '2019-02-01' '2019-03-01' '2019-04-01' '2019-05-01'
 '2019-06-01' '2019-07-01' '2019-08-01' '2019-09-01' '2019-10-01'
 '2019-11-01' '2019-12-01' '2020-01-01' '2020-02-01' '2020-03-01'
 '2020-04-01' '2020-05-01' '2020-06-01' '2020-07-01' '2020-08-01'
 '2020-09-01' '2020-10-01' '2020-11-01' '2020-12-01' '2021-01-01'
 '2021-02-01' '2021-03-01' '2021-04-01' '2021-05-01' '2021-06-01'
 '2021-07-01' '2021-08-01' '2021-09-01' '2021-10-01']
[  7   8  11  10  12  13  14  17  16  15  19  18  21  22  26  28  25  23
  31  30  33  35  36  40  48  50  41  45  43  49  55  60  64  68  53  56
  61  67  65  62  71  76  74  63  66  72  70  54  52  86  83  95 100  85
  75  80  81  84  82  78  92  79  90  91  73  88  89  93  96  94  57  58
  51  59  69]
[  5   8   7   9  11  10  12  13  14  15  16  17  18  19  21  22  23  24
  25  26  27  28  29  30  31  34  42  43  45  40  47  49  54  65  68  71
  72  73  78  80  79  81  82  90  89  98  94 100  96  84  86  85  93  92
  97  91  87  88  83  75  74  70  64  62  56  59  55  53  60  61  63  57
  67  66  58  69  76]
[  7   8  10   9  11  13  12  16  17  14  15  19  18  20  21  22  25  26
  29  23  24  30  31  33  34  36  37  28  38  39  35  40  41  49  60  55
  61  64  56  59  51  58  63  62  54  53  65  74  70  72  69  68  66  71
  76  79  67  80  84  75  78  77  95  91  73  87  85  89  81  86  82  83
  90  96 100  99]
[ 19  18  27  29  26  23  21  25  20  22  28  24  30  32  39  35  38  40
  37  34  46  44  45  43  49  53  51  42  41  54  50  48  47  57  56  61
  59  52  58  62  64  73  76  71  69  67  66  68  72  55  65  63  70  78
  74  75  85  83  80  81  84  79  82  87  92  94  90  86  88  77  96 100]
[ 18  26  20  21  22  23  28  25  32  27  30  34  33  40  37  35  38  39
  45  41  43  42  47  48  44  49  56  46  31  53  51  54  50  55  52  59
  57  58  66  60  61  62  64  70  65  72  76  75  67  74  79  69  78  85
  73  68  82  86  83  95  81  89  92  90  88  91  84  87  93  98 100]
[ 29  34  39  36  40  43  41  47  45  44  50  46  52  53  55  51  54  60
  61  56  58  70  66  73  71  80  74  76  84  88  86  87  92  96  85  91
  93  89 100  95  81  90  79  82  75  69  65  67  78  94  77  83  72  64
  62  68  63  57  59  49]
[  6   4   5   7   8   9  10  13  11  12  14  16  20  19  17  15  21  24
  23  22  30  25  18  27  29  26  28  34  42  41  37  51  52  54 100  62
  80  67  47  43  53  38  36  35  45  40  44  48  50  46  57  59  61  56
  55  66  60  63  58  65  64]
[  7   8   9  12  13  11  10  15  14  17  16  19  18  20  21  24  26  22
  27  25  34  28  31  29  30  35  36  40  45  44  56  42  47  48  49  57
  52  46  51  53  71  50  55  59  64  61  63  65  79  60  62  70  72  69
  83  67  68  73  97  75  66  89  76  80  78  90  87 100  99  86  85  88]
[  4   5   6   7   8   9  10  11  13  15  17  12  14  18  19  20  22  24
  35  40  41  33  26  27  34  42  56  60  67  52  37  36  43  53  58  51
  74  78  77  68  59  61  69  55  62  81  76  65  46  39  87  82  94  99
  92  50  80  72  84  95  93  64  70  63  96 100  54  83  75  48  44  49
  66  31  29  38  32  23  25  28  30  21]
[  9  12  13  10  11  15  16  14  17  19  20  23  21  18  22  24  25  29
  28  26  27  31  30  34  33  32  36  35  38  37  40  42  41  43  46  45
  48  51  47  50  57  54  55  63  60  56  61  59  62  58  64  66  69  65
  73  67  70  74  71  72  76  77  75  90  86  92  97  80  82  91  83  87
  88  98 100  93]
[ 13  14  11  12  18  15  20  17  16  21  22  19  29  23  24  27  39  28
  25  30  32  34  26  40  31  35  36  41  43  33  42  51  57  45  54  60
  47  50  52  56  44  46  48  59  58  55  53  70  83  62  61  65  68  63
  81  64  73  66  67  74  69  76  90  97  72  85  77  78  75 100  79  87
  92]
[ 10   9  13  12  11  14  17  19  16  15  22  18  20  23  24  21  25  27
  26  28  30  31  29  34  35  37  36  42  44  41  39  38  33  40  43  46
  48  51  52  56  55  45  53  47  57  59  69  58  65  64  67  66  61  62
  60  71  84  54  76  73  88  80  83  74  68  92  94  79  78  82  90  72
  77  85  91 100  86]
[ 18  19  20  22  24  23  26  30  28  25  29  34  33  31  35  32  36  38
  40  45  46  49  47  50  52  58  65  53  55  61  60  68  59  62  66  63
  67  72  76  69  70  73  81  78  79  77  57  71  86  90  84  95  91  88
  85  94  83  82  92  97 100  89  99  93  74  80  75  56  64]
[  4   7   5   6  12  39  14  10   8  11  21  55  17   9  31  67  27  18
  13  15  19  16  93  36  24  23  29  20  68 100  52  25  26  33  62  76
  22  40  32  28  30  58  70  44  37  41  42  60  38  48  51  35  45  43
  53  46  64  47  34  56  63  59]
[  9  11  14  12  21  18  17  16  15  24  19  20  29  22  23  34  26  41
  31  27  30  45  52  48  39  40  35  43  38  32  33  37 100  90  69  62
  59  60  57  61  49  51  47  53  54  56  55  72  42  46  67  58  64  70
  63  50  44  66  75  65]
[  8   7  10   9  11  21  15  14  17  16  18  22  32  23  19  25  26  24
  29  27  31  40  37  28  35  34  36  41  48  46  38  43  44  50  56  45
  52  47  51  49  42  39  64 100  98  95  85  75  86  68  89  66  61  83
  82  58  53  78  63  55  57  59  54  60  74  69  62]
[  2   3   5   4   6   8   7   9  11  12  10  13  14  15  16  17  19  18
  21  22  23  25  27  26  28  32  31  29  39  59  64  68  65  69  76  74
  71  67  70  78  85  83  88  84  89  75  86  87  91 100  96  77  73  81
  66  61  58  60  63  62  52  51  48  56  49  50  47  45  43  35  34  30
  24  20]
[ 10   9  13  12  11  14  16  18  20  19  17  21  23  22  24  26  25  28
  29  31  32  35  39  40  44  48  49  45  42  46  43  50  51  53  60  62
  64  58  61  63  65  73  76  59  68  66  69  52  47  70  78  80  90  91
  89  74  71  79  77  85  81  75  67  72 100  83  86  82  84  99  98]
[ 10   7  12   5  11   8  14  15  13  18  16  19  17  20  22  21  23  24
  26  25  30  27  35  29  33  34  31  32  38  40  41  43  39  44  45  42
  46  47  48  49  51  53  58  57  56  67 100  65  59  62  61  63  54  60
  64  66  71  52  86  55  72  74  50  68  69]
[  6   4   5   8   3   7   9  10  12  11  14  15  16  17  20  19  21  18
  22  23  26  29  30  27  28  25  31  33  34  32  35  39  41  40  51  43
  38  42  44  46  45  48  60  50  53  52  61  64  57  49  47  56  55  54
  58  75  66  73  68  72  62  77  76  74 100  94  83  70  69  65  63  78
  84  80  71]
[  9   8  10  11  12  13  14  15  16  17  18  19  21  23  25  24  22  30
  29  32  26  28  31  34  35  27  33  40  44  41  37  38  39  42  36  45
  48  46  47  49  53  54  50  52  51  55  57  56  59  61  66  65  63  60
  70  68  67  62  64  58  72  76  73  69  84  82  88  81  85  83  89  71
  74  94 100  90  91  87]
[ 28  39  41  37  31  29  36  40  47  38  51  44  35  32  49  33  50  52
  46  45  48  42  54  56  66  60  34  57  62  63  43  58  53  64  59  55
  67  68  61  73  72  71  70  69  75  74  78  65  82 100  87  76  80  77
  79  84]
[ 13  15  14  17  18  16  22  19  21  20  24  23  29  25  28  27  26  32
  31  34  35  30  33  37  40  42  45  47  43  46  44  51  48  50  49  53
  56  55  65  57  59  61  58  60  67  69  62  66  63  64  76  71  68  75
  72  79  77  91  90  86  84 100  99  95  83  80  88  82  81  74  89  94
  87]
[  3   4   5   6   7   8   9  10  13  12  11  14  18  15  16  19  25  24
  22  20  23  30  32  26  34  29  28  36  33  40  27  31  35  37  45  43
  41  54  42  38  48  46  44  47  52  53  58  61  66  50  55  49  51  59
  77  57  56  67  76  87  68  62  85  39  74  80  84 100  75  98  65  83
  89  63]
[ 13  14  18  16  15  19  20  17  21  22  23  24  29  25  28  26  27  31
  30  32  34  33  36  37  39  35  40  41  44  42  38  43  47  55  66  52
  45  46  48  51  64  72  59  50  49  56  57  86  78  62  67  87  75  54
  82  79  70  58  68  65  91 100  93  73  71  81  60]
In [13]:
#checking for missing data
df.isnull().sum(axis=0)
Out[13]:
date                       0
Arts & Entertainment       0
Autos & Vehicles           0
Beauty & Fitness           0
Books & Literature         0
Business & Industrial      0
Computers & Electronics    0
Finance                    0
Food & Drink               0
Games                      0
Health                     0
Hobbies & Leisure          0
Home & Garden              0
Internet & Telecom         0
Jobs & Education           0
Law & Government           0
News                       0
Online Communities         0
People & Society           0
Pets & Animals             0
Real Estate                0
Reference                  0
Science                    0
Shopping                   0
Sports                     0
Travel                     0
dtype: int64
In [14]:
#cheching for count of zeros
for column_name in df.columns:
    column = df[column_name]
    # Get the count of Zeros in column 
    count = (column == 0).sum()
    print('Count of zeros in column ', column_name, ' is : ', count)
Count of zeros in column  date  is :  0
Count of zeros in column  Arts & Entertainment  is :  0
Count of zeros in column  Autos & Vehicles  is :  0
Count of zeros in column  Beauty & Fitness  is :  0
Count of zeros in column  Books & Literature  is :  0
Count of zeros in column  Business & Industrial  is :  0
Count of zeros in column  Computers & Electronics  is :  0
Count of zeros in column  Finance  is :  0
Count of zeros in column  Food & Drink  is :  0
Count of zeros in column  Games  is :  0
Count of zeros in column  Health  is :  0
Count of zeros in column  Hobbies & Leisure  is :  0
Count of zeros in column  Home & Garden  is :  0
Count of zeros in column  Internet & Telecom  is :  0
Count of zeros in column  Jobs & Education  is :  0
Count of zeros in column  Law & Government  is :  0
Count of zeros in column  News  is :  0
Count of zeros in column  Online Communities  is :  0
Count of zeros in column  People & Society  is :  0
Count of zeros in column  Pets & Animals  is :  0
Count of zeros in column  Real Estate  is :  0
Count of zeros in column  Reference  is :  0
Count of zeros in column  Science  is :  0
Count of zeros in column  Shopping  is :  0
Count of zeros in column  Sports  is :  0
Count of zeros in column  Travel  is :  0

4. Checking for Anomalies¶

In [87]:
#checking for outliers🤓
q1=df[df.columns.to_list()[1:]].quantile(0.25)

q3=df[df.columns.to_list()[1:]].quantile(0.75)

IQR=q3-q1

outliers = df[df.columns.to_list()[1:]][((df[df.columns.to_list()[1:]]<(q1-1.5*IQR)) | (df[df.columns.to_list()[1:]]>(q3+1.5*IQR)))]
print (outliers)
# print (outliers.dropna(how="all"))
     Arts & Entertainment  Autos & Vehicles  Beauty & Fitness  \
0                     7.0               NaN               NaN   
1                     7.0               NaN               NaN   
2                     NaN               NaN               NaN   
3                     NaN               NaN               NaN   
4                     NaN               NaN               NaN   
5                     NaN               NaN               NaN   
6                     NaN               NaN               NaN   
7                     NaN               NaN               NaN   
8                     NaN               NaN               NaN   
9                     NaN               NaN               NaN   
10                    NaN               NaN               NaN   
11                    NaN               NaN               NaN   
12                    NaN               NaN               NaN   
13                    NaN               NaN               NaN   
14                    NaN               NaN               NaN   
15                    NaN               NaN               NaN   
16                    NaN               NaN               NaN   
17                    NaN               NaN               NaN   
18                    NaN               NaN               NaN   
19                    NaN               NaN               NaN   
20                    NaN               NaN               NaN   
21                    NaN               NaN               NaN   
22                    NaN               NaN               NaN   
23                    NaN               NaN               NaN   
24                    NaN               NaN               NaN   
25                    NaN               NaN               NaN   
26                    NaN               NaN               NaN   
27                    NaN               NaN               NaN   
28                    NaN               NaN               NaN   
29                    NaN               NaN               NaN   
30                    NaN               NaN               NaN   
31                    NaN               NaN               NaN   
32                    NaN               NaN               NaN   
33                    NaN               NaN               NaN   
34                    NaN               NaN               NaN   
35                    NaN               NaN               NaN   
36                    NaN               NaN               NaN   
37                    NaN               NaN               NaN   
38                    NaN               NaN               NaN   
39                    NaN               NaN               NaN   
40                    NaN               NaN               NaN   
41                    NaN               NaN               NaN   
42                    NaN               NaN               NaN   
43                    NaN               NaN               NaN   
44                    NaN               NaN               NaN   
45                    NaN               NaN               NaN   
46                    NaN               NaN               NaN   
47                    NaN               NaN               NaN   
48                    NaN               NaN               NaN   
49                    NaN               NaN               NaN   
50                    NaN               NaN               NaN   
51                    NaN               NaN               NaN   
52                    NaN               NaN               NaN   
53                    NaN               NaN               NaN   
54                    NaN               NaN               NaN   
55                    NaN               NaN               NaN   
56                    NaN               NaN               NaN   
57                    NaN               NaN               NaN   
58                    NaN               NaN               NaN   
59                    NaN               NaN               NaN   
60                    NaN               NaN               NaN   
61                    NaN               NaN               NaN   
62                    NaN               NaN               NaN   
63                    NaN               NaN               NaN   
64                    NaN               NaN               NaN   
65                    NaN               NaN               NaN   
66                    NaN               NaN               NaN   
67                    NaN               NaN               NaN   
68                    NaN               NaN               NaN   
69                    NaN               NaN               NaN   
70                    NaN               NaN               NaN   
71                    NaN               NaN               NaN   
72                    NaN               NaN               NaN   
73                    NaN               NaN               NaN   
74                    NaN               NaN               NaN   
75                    NaN               NaN               NaN   
76                    NaN               NaN               NaN   
77                    NaN               NaN               NaN   
78                    NaN               NaN               NaN   
79                    NaN               NaN               NaN   
80                    NaN               NaN               NaN   
81                    NaN               NaN               NaN   
82                    NaN               NaN               NaN   
83                    NaN               NaN               NaN   
84                    NaN               NaN               NaN   
85                    NaN               NaN               NaN   
86                    NaN               NaN               NaN   
87                    NaN               NaN               NaN   
88                    NaN               NaN               NaN   
89                    NaN               NaN               NaN   
90                    NaN               NaN               NaN   
91                    NaN               NaN               NaN   
92                    NaN               NaN               NaN   
93                    NaN               NaN               NaN   
94                    NaN               NaN               NaN   
95                    NaN               NaN               NaN   
96                    NaN               NaN               NaN   
97                    NaN               NaN               NaN   
98                    NaN               NaN               NaN   
99                    NaN               NaN               NaN   
100                   NaN               NaN               NaN   
101                   NaN               NaN               NaN   
102                   NaN               NaN               NaN   
103                   NaN               NaN               NaN   
104                   NaN               NaN               NaN   
105                   NaN               NaN               NaN   
106                   NaN               NaN               NaN   
107                   NaN               NaN               NaN   
108                   NaN               NaN               NaN   
109                   NaN               NaN               NaN   
110                   NaN               NaN               NaN   
111                   NaN               NaN               NaN   
112                   NaN               NaN               NaN   
113                   NaN               NaN               NaN   
114                   NaN               NaN               NaN   
115                   NaN               NaN               NaN   
116                   NaN               NaN               NaN   
117                   NaN               NaN               NaN   
118                   NaN               NaN               NaN   
119                   NaN               NaN               NaN   
120                   NaN               NaN               NaN   
121                   NaN               NaN               NaN   
122                   NaN               NaN               NaN   
123                   NaN               NaN               NaN   
124                   NaN               NaN               NaN   
125                   NaN               NaN               NaN   
126                   NaN               NaN               NaN   
127                   NaN               NaN               NaN   
128                   NaN               NaN               NaN   
129                   NaN               NaN               NaN   
130                   NaN               NaN               NaN   
131                   NaN               NaN               NaN   
132                   NaN               NaN               NaN   
133                   NaN               NaN               NaN   
134                   NaN               NaN               NaN   
135                   NaN               NaN               NaN   
136                   NaN               NaN               NaN   
137                   NaN               NaN               NaN   
138                   NaN               NaN               NaN   
139                   NaN               NaN               NaN   
140                   NaN               NaN               NaN   
141                   NaN               NaN               NaN   
142                   NaN               NaN               NaN   
143                   NaN               NaN               NaN   
144                   NaN               NaN               NaN   
145                   NaN               NaN               NaN   
146                   NaN               NaN               NaN   
147                   NaN               NaN               NaN   
148                   NaN               NaN               NaN   
149                   NaN               NaN               NaN   
150                   NaN               NaN               NaN   
151                   NaN               NaN               NaN   
152                   NaN               NaN               NaN   
153                   NaN               NaN               NaN   
154                   NaN               NaN               NaN   
155                   NaN               NaN               NaN   
156                   NaN               NaN               NaN   
157                   NaN               NaN               NaN   
158                   NaN               NaN               NaN   
159                   NaN               NaN               NaN   
160                   NaN               NaN               NaN   
161                   NaN               NaN               NaN   
162                   NaN               NaN               NaN   
163                   NaN               NaN               NaN   
164                   NaN               NaN               NaN   
165                   NaN               NaN               NaN   
166                   NaN               NaN               NaN   
167                   NaN               NaN               NaN   
168                   NaN               NaN               NaN   
169                   NaN               NaN               NaN   
170                   NaN               NaN               NaN   
171                   NaN               NaN               NaN   
172                   NaN               NaN               NaN   
173                   NaN               NaN               NaN   
174                   NaN               NaN               NaN   
175                   NaN               NaN               NaN   
176                   NaN               NaN               NaN   
177                   NaN               NaN               NaN   
178                   NaN               NaN               NaN   
179                   NaN               NaN               NaN   
180                   NaN               NaN               NaN   
181                   NaN               NaN               NaN   
182                   NaN               NaN               NaN   
183                   NaN               NaN               NaN   
184                   NaN               NaN               NaN   
185                   NaN               NaN               NaN   
186                   NaN               NaN               NaN   
187                   NaN               NaN               NaN   
188                   NaN               NaN               NaN   
189                   NaN               NaN               NaN   
190                   NaN               NaN               NaN   
191                   NaN               NaN               NaN   
192                   NaN               NaN               NaN   
193                   NaN               NaN               NaN   
194                   NaN               NaN               NaN   
195                   NaN               NaN               NaN   
196                   NaN               NaN               NaN   
197                   NaN               NaN               NaN   
198                   NaN               NaN               NaN   
199                   NaN               NaN               NaN   
200                   NaN               NaN               NaN   
201                   NaN               NaN               NaN   
202                   NaN               NaN               NaN   
203                   NaN               NaN               NaN   
204                   NaN               NaN               NaN   
205                   NaN               NaN               NaN   
206                   NaN               NaN               NaN   
207                   NaN               NaN               NaN   
208                   NaN               NaN               NaN   
209                   NaN               NaN               NaN   
210                   NaN               NaN               NaN   
211                   NaN               NaN               NaN   
212                   NaN               NaN               NaN   
213                   NaN               NaN               NaN   

     Books & Literature  Business & Industrial  Computers & Electronics  \
0                   NaN                    NaN                      NaN   
1                   NaN                    NaN                      NaN   
2                   NaN                    NaN                      NaN   
3                   NaN                    NaN                      NaN   
4                   NaN                    NaN                      NaN   
5                   NaN                    NaN                      NaN   
6                   NaN                    NaN                      NaN   
7                   NaN                    NaN                      NaN   
8                   NaN                    NaN                      NaN   
9                   NaN                    NaN                      NaN   
10                  NaN                    NaN                      NaN   
11                  NaN                    NaN                      NaN   
12                  NaN                    NaN                      NaN   
13                  NaN                    NaN                      NaN   
14                  NaN                    NaN                      NaN   
15                  NaN                    NaN                      NaN   
16                  NaN                    NaN                      NaN   
17                  NaN                    NaN                      NaN   
18                  NaN                    NaN                      NaN   
19                  NaN                    NaN                      NaN   
20                  NaN                    NaN                      NaN   
21                  NaN                    NaN                      NaN   
22                  NaN                    NaN                      NaN   
23                  NaN                    NaN                      NaN   
24                  NaN                    NaN                      NaN   
25                  NaN                    NaN                      NaN   
26                  NaN                    NaN                      NaN   
27                  NaN                    NaN                      NaN   
28                  NaN                    NaN                      NaN   
29                  NaN                    NaN                      NaN   
30                  NaN                    NaN                      NaN   
31                  NaN                    NaN                      NaN   
32                  NaN                    NaN                      NaN   
33                  NaN                    NaN                      NaN   
34                  NaN                    NaN                      NaN   
35                  NaN                    NaN                      NaN   
36                  NaN                    NaN                      NaN   
37                  NaN                    NaN                      NaN   
38                  NaN                    NaN                      NaN   
39                  NaN                    NaN                      NaN   
40                  NaN                    NaN                      NaN   
41                  NaN                    NaN                      NaN   
42                  NaN                    NaN                      NaN   
43                  NaN                    NaN                      NaN   
44                  NaN                    NaN                      NaN   
45                  NaN                    NaN                      NaN   
46                  NaN                    NaN                      NaN   
47                  NaN                    NaN                      NaN   
48                  NaN                    NaN                      NaN   
49                  NaN                    NaN                      NaN   
50                  NaN                    NaN                      NaN   
51                  NaN                    NaN                      NaN   
52                  NaN                    NaN                      NaN   
53                  NaN                    NaN                      NaN   
54                  NaN                    NaN                      NaN   
55                  NaN                    NaN                      NaN   
56                  NaN                    NaN                      NaN   
57                  NaN                    NaN                      NaN   
58                  NaN                    NaN                      NaN   
59                  NaN                    NaN                      NaN   
60                  NaN                    NaN                      NaN   
61                  NaN                    NaN                      NaN   
62                  NaN                    NaN                      NaN   
63                  NaN                    NaN                      NaN   
64                  NaN                    NaN                      NaN   
65                  NaN                    NaN                      NaN   
66                  NaN                    NaN                      NaN   
67                  NaN                    NaN                      NaN   
68                  NaN                    NaN                      NaN   
69                  NaN                    NaN                      NaN   
70                  NaN                    NaN                      NaN   
71                  NaN                    NaN                      NaN   
72                  NaN                    NaN                      NaN   
73                  NaN                    NaN                      NaN   
74                  NaN                    NaN                      NaN   
75                  NaN                    NaN                      NaN   
76                  NaN                    NaN                      NaN   
77                  NaN                    NaN                      NaN   
78                  NaN                    NaN                      NaN   
79                  NaN                    NaN                      NaN   
80                  NaN                    NaN                      NaN   
81                  NaN                    NaN                      NaN   
82                  NaN                    NaN                      NaN   
83                  NaN                    NaN                      NaN   
84                  NaN                    NaN                      NaN   
85                  NaN                    NaN                      NaN   
86                  NaN                    NaN                      NaN   
87                  NaN                    NaN                      NaN   
88                  NaN                    NaN                      NaN   
89                  NaN                    NaN                      NaN   
90                  NaN                    NaN                      NaN   
91                  NaN                    NaN                      NaN   
92                  NaN                    NaN                      NaN   
93                  NaN                    NaN                      NaN   
94                  NaN                    NaN                      NaN   
95                  NaN                    NaN                      NaN   
96                  NaN                    NaN                      NaN   
97                  NaN                    NaN                      NaN   
98                  NaN                    NaN                      NaN   
99                  NaN                    NaN                      NaN   
100                 NaN                    NaN                      NaN   
101                 NaN                    NaN                      NaN   
102                 NaN                    NaN                      NaN   
103                 NaN                    NaN                      NaN   
104                 NaN                    NaN                      NaN   
105                 NaN                    NaN                      NaN   
106                 NaN                    NaN                      NaN   
107                 NaN                    NaN                      NaN   
108                 NaN                    NaN                      NaN   
109                 NaN                    NaN                      NaN   
110                 NaN                    NaN                      NaN   
111                 NaN                    NaN                      NaN   
112                 NaN                    NaN                      NaN   
113                 NaN                    NaN                      NaN   
114                 NaN                    NaN                      NaN   
115                 NaN                    NaN                      NaN   
116                 NaN                    NaN                      NaN   
117                 NaN                    NaN                      NaN   
118                 NaN                    NaN                      NaN   
119                 NaN                    NaN                      NaN   
120                 NaN                    NaN                      NaN   
121                 NaN                    NaN                      NaN   
122                 NaN                    NaN                      NaN   
123                 NaN                    NaN                      NaN   
124                 NaN                    NaN                      NaN   
125                 NaN                    NaN                      NaN   
126                 NaN                    NaN                      NaN   
127                 NaN                    NaN                      NaN   
128                 NaN                    NaN                      NaN   
129                 NaN                    NaN                      NaN   
130                 NaN                    NaN                      NaN   
131                 NaN                    NaN                      NaN   
132                 NaN                    NaN                      NaN   
133                 NaN                    NaN                      NaN   
134                 NaN                    NaN                      NaN   
135                 NaN                    NaN                      NaN   
136                 NaN                    NaN                      NaN   
137                 NaN                    NaN                      NaN   
138                 NaN                    NaN                      NaN   
139                 NaN                    NaN                      NaN   
140                 NaN                    NaN                      NaN   
141                 NaN                    NaN                      NaN   
142                 NaN                    NaN                      NaN   
143                 NaN                    NaN                      NaN   
144                 NaN                    NaN                      NaN   
145                 NaN                    NaN                      NaN   
146                 NaN                    NaN                      NaN   
147                 NaN                    NaN                      NaN   
148                 NaN                    NaN                      NaN   
149                 NaN                    NaN                      NaN   
150                 NaN                    NaN                      NaN   
151                 NaN                    NaN                      NaN   
152                 NaN                    NaN                      NaN   
153                 NaN                    NaN                      NaN   
154                 NaN                    NaN                      NaN   
155                 NaN                    NaN                      NaN   
156                 NaN                    NaN                      NaN   
157                 NaN                    NaN                      NaN   
158                 NaN                    NaN                      NaN   
159                 NaN                    NaN                      NaN   
160                 NaN                    NaN                      NaN   
161                 NaN                    NaN                      NaN   
162                 NaN                    NaN                      NaN   
163                 NaN                    NaN                      NaN   
164                 NaN                    NaN                      NaN   
165                 NaN                    NaN                      NaN   
166                 NaN                    NaN                      NaN   
167                 NaN                    NaN                      NaN   
168                 NaN                    NaN                      NaN   
169                 NaN                    NaN                      NaN   
170                 NaN                    NaN                      NaN   
171                 NaN                    NaN                      NaN   
172                 NaN                    NaN                      NaN   
173                 NaN                    NaN                      NaN   
174                 NaN                    NaN                      NaN   
175                 NaN                    NaN                      NaN   
176                 NaN                    NaN                      NaN   
177                 NaN                    NaN                      NaN   
178                 NaN                    NaN                      NaN   
179                 NaN                    NaN                      NaN   
180                 NaN                    NaN                      NaN   
181                 NaN                    NaN                      NaN   
182                 NaN                    NaN                      NaN   
183                 NaN                    NaN                      NaN   
184                 NaN                    NaN                      NaN   
185                 NaN                    NaN                      NaN   
186                 NaN                    NaN                      NaN   
187                 NaN                    NaN                      NaN   
188                 NaN                    NaN                      NaN   
189                 NaN                    NaN                      NaN   
190                 NaN                    NaN                      NaN   
191                 NaN                    NaN                      NaN   
192                 NaN                    NaN                      NaN   
193                 NaN                    NaN                      NaN   
194                 NaN                    NaN                      NaN   
195                 NaN                    NaN                      NaN   
196                 NaN                    NaN                      NaN   
197                 NaN                    NaN                      NaN   
198                 NaN                    NaN                      NaN   
199                 NaN                    NaN                      NaN   
200                 NaN                    NaN                      NaN   
201                 NaN                    NaN                      NaN   
202                 NaN                    NaN                      NaN   
203                 NaN                    NaN                      NaN   
204                 NaN                    NaN                      NaN   
205                 NaN                    NaN                      NaN   
206                 NaN                    NaN                      NaN   
207                 NaN                    NaN                      NaN   
208                 NaN                    NaN                      NaN   
209                 NaN                    NaN                      NaN   
210                 NaN                    NaN                      NaN   
211                 NaN                    NaN                      NaN   
212                 NaN                    NaN                      NaN   
213                 NaN                    NaN                      NaN   

     Finance  Food & Drink  Games  Health  Hobbies & Leisure  Home & Garden  \
0        NaN           NaN    NaN     NaN                NaN            NaN   
1        NaN           NaN    NaN     NaN                NaN            NaN   
2        NaN           NaN    NaN     NaN                NaN            NaN   
3        NaN           NaN    NaN     NaN                NaN            NaN   
4        NaN           NaN    NaN     NaN                NaN            NaN   
5        NaN           NaN    NaN     NaN                NaN            NaN   
6        NaN           NaN    NaN     NaN                NaN            NaN   
7        NaN           NaN    NaN     NaN                NaN            NaN   
8        NaN           NaN    NaN     NaN                NaN            NaN   
9        NaN           NaN    NaN     NaN                NaN            NaN   
10       NaN           NaN    NaN     NaN                NaN            NaN   
11       NaN           NaN    NaN     NaN                NaN            NaN   
12       NaN           NaN    NaN     NaN                NaN            NaN   
13       NaN           NaN    NaN     NaN                NaN            NaN   
14       NaN           NaN    NaN     NaN                NaN            NaN   
15       NaN           NaN    NaN     NaN                NaN            NaN   
16       NaN           NaN    NaN     NaN                NaN            NaN   
17       NaN           NaN    NaN     NaN                NaN            NaN   
18       NaN           NaN    NaN     NaN                NaN            NaN   
19       NaN           NaN    NaN     NaN                NaN            NaN   
20       NaN           NaN    NaN     NaN                NaN            NaN   
21       NaN           NaN    NaN     NaN                NaN            NaN   
22       NaN           NaN    NaN     NaN                NaN            NaN   
23       NaN           NaN    NaN     NaN                NaN            NaN   
24       NaN           NaN    NaN     NaN                NaN            NaN   
25       NaN           NaN    NaN     NaN                NaN            NaN   
26       NaN           NaN    NaN     NaN                NaN            NaN   
27       NaN           NaN    NaN     NaN                NaN            NaN   
28       NaN           NaN    NaN     NaN                NaN            NaN   
29       NaN           NaN    NaN     NaN                NaN            NaN   
30       NaN           NaN    NaN     NaN                NaN            NaN   
31       NaN           NaN    NaN     NaN                NaN            NaN   
32       NaN           NaN    NaN     NaN                NaN            NaN   
33       NaN           NaN    NaN     NaN                NaN            NaN   
34       NaN           NaN    NaN     NaN                NaN            NaN   
35       NaN           NaN    NaN     NaN                NaN            NaN   
36       NaN           NaN    NaN     NaN                NaN            NaN   
37       NaN           NaN    NaN     NaN                NaN            NaN   
38       NaN           NaN    NaN     NaN                NaN            NaN   
39       NaN           NaN    NaN     NaN                NaN            NaN   
40       NaN           NaN    NaN     NaN                NaN            NaN   
41       NaN           NaN    NaN     NaN                NaN            NaN   
42       NaN           NaN    NaN     NaN                NaN            NaN   
43       NaN           NaN    NaN     NaN                NaN            NaN   
44       NaN           NaN    NaN     NaN                NaN            NaN   
45       NaN           NaN    NaN     NaN                NaN            NaN   
46       NaN           NaN    NaN     NaN                NaN            NaN   
47       NaN           NaN    NaN     NaN                NaN            NaN   
48       NaN           NaN    NaN     NaN                NaN            NaN   
49       NaN           NaN    NaN     NaN                NaN            NaN   
50       NaN           NaN    NaN     NaN                NaN            NaN   
51       NaN           NaN    NaN     NaN                NaN            NaN   
52       NaN           NaN    NaN     NaN                NaN            NaN   
53       NaN           NaN    NaN     NaN                NaN            NaN   
54       NaN           NaN    NaN     NaN                NaN            NaN   
55       NaN           NaN    NaN     NaN                NaN            NaN   
56       NaN           NaN    NaN     NaN                NaN            NaN   
57       NaN           NaN    NaN     NaN                NaN            NaN   
58       NaN           NaN    NaN     NaN                NaN            NaN   
59       NaN           NaN    NaN     NaN                NaN            NaN   
60       NaN           NaN    NaN     NaN                NaN            NaN   
61       NaN           NaN    NaN     NaN                NaN            NaN   
62       NaN           NaN    NaN     NaN                NaN            NaN   
63       NaN           NaN    NaN     NaN                NaN            NaN   
64       NaN           NaN    NaN     NaN                NaN            NaN   
65       NaN           NaN    NaN     NaN                NaN            NaN   
66       NaN           NaN    NaN     NaN                NaN            NaN   
67       NaN           NaN    NaN     NaN                NaN            NaN   
68       NaN           NaN    NaN     NaN                NaN            NaN   
69       NaN           NaN    NaN     NaN                NaN            NaN   
70       NaN           NaN    NaN     NaN                NaN            NaN   
71       NaN           NaN    NaN     NaN                NaN            NaN   
72       NaN           NaN    NaN     NaN                NaN            NaN   
73       NaN           NaN    NaN     NaN                NaN            NaN   
74       NaN           NaN    NaN     NaN                NaN            NaN   
75       NaN           NaN    NaN     NaN                NaN            NaN   
76       NaN           NaN    NaN     NaN                NaN            NaN   
77       NaN           NaN    NaN     NaN                NaN            NaN   
78       NaN           NaN    NaN     NaN                NaN            NaN   
79       NaN           NaN    NaN     NaN                NaN            NaN   
80       NaN           NaN    NaN     NaN                NaN            NaN   
81       NaN           NaN    NaN     NaN                NaN            NaN   
82       NaN           NaN    NaN     NaN                NaN            NaN   
83       NaN           NaN    NaN     NaN                NaN            NaN   
84       NaN           NaN    NaN     NaN                NaN            NaN   
85       NaN           NaN    NaN     NaN                NaN            NaN   
86       NaN           NaN    NaN     NaN                NaN            NaN   
87       NaN           NaN    NaN     NaN                NaN            NaN   
88       NaN           NaN    NaN     NaN                NaN            NaN   
89       NaN           NaN    NaN     NaN                NaN            NaN   
90       NaN           NaN    NaN     NaN                NaN            NaN   
91       NaN           NaN    NaN     NaN                NaN            NaN   
92       NaN           NaN    NaN     NaN                NaN            NaN   
93       NaN           NaN    NaN     NaN                NaN            NaN   
94       NaN           NaN    NaN     NaN                NaN            NaN   
95       NaN           NaN    NaN     NaN                NaN            NaN   
96       NaN           NaN    NaN     NaN                NaN            NaN   
97       NaN           NaN    NaN     NaN                NaN            NaN   
98       NaN           NaN    NaN     NaN                NaN            NaN   
99       NaN           NaN    NaN     NaN                NaN            NaN   
100      NaN           NaN    NaN     NaN                NaN            NaN   
101      NaN           NaN    NaN     NaN                NaN            NaN   
102      NaN           NaN    NaN     NaN                NaN            NaN   
103      NaN           NaN    NaN     NaN                NaN            NaN   
104      NaN           NaN    NaN     NaN                NaN            NaN   
105      NaN           NaN    NaN     NaN                NaN            NaN   
106      NaN           NaN    NaN     NaN                NaN            NaN   
107      NaN           NaN    NaN     NaN                NaN            NaN   
108      NaN           NaN    NaN     NaN                NaN            NaN   
109      NaN           NaN    NaN     NaN                NaN            NaN   
110      NaN           NaN    NaN     NaN                NaN            NaN   
111      NaN           NaN    NaN     NaN                NaN            NaN   
112      NaN           NaN    NaN     NaN                NaN            NaN   
113      NaN           NaN    NaN     NaN                NaN            NaN   
114      NaN           NaN    NaN     NaN                NaN            NaN   
115      NaN           NaN    NaN     NaN                NaN            NaN   
116      NaN           NaN    NaN     NaN                NaN            NaN   
117      NaN           NaN    NaN     NaN                NaN            NaN   
118      NaN           NaN    NaN     NaN                NaN            NaN   
119      NaN           NaN    NaN     NaN                NaN            NaN   
120      NaN           NaN    NaN     NaN                NaN            NaN   
121      NaN           NaN    NaN     NaN                NaN            NaN   
122      NaN           NaN    NaN     NaN                NaN            NaN   
123      NaN           NaN    NaN     NaN                NaN            NaN   
124      NaN           NaN    NaN     NaN                NaN            NaN   
125      NaN           NaN    NaN     NaN                NaN            NaN   
126      NaN           NaN    NaN     NaN                NaN            NaN   
127      NaN           NaN    NaN     NaN                NaN            NaN   
128      NaN           NaN    NaN     NaN                NaN            NaN   
129      NaN           NaN    NaN     NaN                NaN            NaN   
130      NaN           NaN    NaN     NaN                NaN            NaN   
131      NaN           NaN    NaN     NaN                NaN            NaN   
132      NaN           NaN    NaN     NaN                NaN            NaN   
133      NaN           NaN    NaN     NaN                NaN            NaN   
134      NaN           NaN    NaN     NaN                NaN            NaN   
135      NaN           NaN    NaN     NaN                NaN            NaN   
136      NaN           NaN    NaN     NaN                NaN            NaN   
137      NaN           NaN    NaN     NaN                NaN            NaN   
138      NaN           NaN    NaN     NaN                NaN            NaN   
139      NaN           NaN    NaN     NaN                NaN            NaN   
140      NaN           NaN    NaN     NaN                NaN            NaN   
141      NaN           NaN    NaN     NaN                NaN            NaN   
142      NaN           NaN    NaN     NaN                NaN            NaN   
143      NaN           NaN    NaN     NaN                NaN            NaN   
144      NaN           NaN    NaN     NaN                NaN            NaN   
145      NaN           NaN    NaN     NaN                NaN            NaN   
146      NaN           NaN    NaN     NaN                NaN            NaN   
147      NaN           NaN    NaN     NaN                NaN            NaN   
148      NaN           NaN    NaN     NaN                NaN            NaN   
149      NaN           NaN    NaN     NaN                NaN            NaN   
150      NaN           NaN    NaN     NaN                NaN            NaN   
151      NaN           NaN    NaN     NaN                NaN            NaN   
152      NaN           NaN    NaN     NaN                NaN            NaN   
153      NaN           NaN    NaN     NaN                NaN            NaN   
154    100.0           NaN    NaN     NaN                NaN            NaN   
155      NaN           NaN    NaN     NaN                NaN            NaN   
156      NaN           NaN    NaN     NaN                NaN            NaN   
157      NaN           NaN    NaN     NaN                NaN            NaN   
158      NaN           NaN    NaN     NaN                NaN            NaN   
159      NaN           NaN    NaN     NaN                NaN            NaN   
160      NaN           NaN    NaN     NaN                NaN            NaN   
161      NaN           NaN    NaN     NaN                NaN            NaN   
162      NaN           NaN    NaN     NaN                NaN            NaN   
163      NaN           NaN    NaN     NaN                NaN            NaN   
164      NaN           NaN    NaN     NaN                NaN            NaN   
165      NaN           NaN    NaN     NaN                NaN            NaN   
166      NaN           NaN    NaN     NaN                NaN            NaN   
167      NaN           NaN    NaN     NaN                NaN            NaN   
168      NaN           NaN    NaN     NaN                NaN            NaN   
169      NaN           NaN    NaN     NaN                NaN            NaN   
170      NaN           NaN    NaN     NaN                NaN            NaN   
171      NaN           NaN    NaN     NaN                NaN            NaN   
172      NaN           NaN    NaN     NaN                NaN            NaN   
173      NaN           NaN    NaN     NaN                NaN            NaN   
174      NaN           NaN    NaN     NaN                NaN            NaN   
175      NaN           NaN    NaN     NaN                NaN            NaN   
176      NaN           NaN    NaN     NaN                NaN            NaN   
177      NaN           NaN    NaN     NaN                NaN            NaN   
178      NaN           NaN    NaN     NaN                NaN            NaN   
179      NaN           NaN    NaN     NaN                NaN            NaN   
180      NaN           NaN    NaN     NaN                NaN            NaN   
181      NaN           NaN    NaN     NaN                NaN            NaN   
182      NaN           NaN    NaN     NaN                NaN            NaN   
183      NaN           NaN    NaN     NaN                NaN            NaN   
184      NaN           NaN    NaN     NaN                NaN            NaN   
185      NaN           NaN    NaN     NaN                NaN            NaN   
186      NaN           NaN    NaN     NaN                NaN            NaN   
187      NaN           NaN    NaN     NaN                NaN            NaN   
188      NaN           NaN    NaN     NaN                NaN            NaN   
189      NaN           NaN    NaN     NaN                NaN            NaN   
190      NaN           NaN    NaN     NaN                NaN            NaN   
191      NaN           NaN    NaN     NaN                NaN            NaN   
192      NaN           NaN    NaN     NaN                NaN            NaN   
193      NaN           NaN    NaN     NaN                NaN            NaN   
194      NaN           NaN    NaN     NaN                NaN            NaN   
195      NaN           NaN    NaN     NaN                NaN            NaN   
196      NaN           NaN    NaN     NaN                NaN            NaN   
197      NaN           NaN    NaN     NaN                NaN            NaN   
198      NaN           NaN    NaN     NaN                NaN            NaN   
199      NaN           NaN    NaN     NaN                NaN            NaN   
200      NaN           NaN    NaN     NaN                NaN            NaN   
201      NaN           NaN    NaN     NaN                NaN            NaN   
202      NaN           NaN    NaN     NaN                NaN            NaN   
203      NaN           NaN    NaN     NaN                NaN            NaN   
204      NaN           NaN    NaN     NaN                NaN            NaN   
205      NaN           NaN    NaN     NaN                NaN            NaN   
206      NaN           NaN    NaN     NaN                NaN            NaN   
207      NaN           NaN    NaN     NaN                NaN            NaN   
208      NaN           NaN    NaN     NaN                NaN            NaN   
209      NaN           NaN    NaN     NaN                NaN            NaN   
210      NaN           NaN    NaN     NaN                NaN            NaN   
211      NaN           NaN    NaN     NaN                NaN            NaN   
212      NaN           NaN    NaN     NaN                NaN            NaN   
213      NaN           NaN    NaN     NaN                NaN            NaN   

     Internet & Telecom  Jobs & Education  Law & Government   News  \
0                  18.0               NaN               NaN    8.0   
1                  19.0               NaN               NaN    7.0   
2                  20.0               NaN               NaN   10.0   
3                  19.0               NaN               NaN    9.0   
4                  19.0               NaN               NaN   10.0   
5                  22.0               NaN               NaN   11.0   
6                  24.0               NaN               NaN    NaN   
7                  23.0               NaN               NaN   15.0   
8                  23.0               NaN               NaN   14.0   
9                  19.0               NaN               NaN   11.0   
10                  NaN               NaN               NaN   14.0   
11                  NaN               NaN               NaN   15.0   
12                 22.0               NaN               NaN   14.0   
13                  NaN               NaN               NaN   14.0   
14                  NaN               NaN               NaN   17.0   
15                  NaN               NaN               NaN   16.0   
16                  NaN               NaN               NaN    NaN   
17                  NaN               NaN               NaN    NaN   
18                  NaN               NaN               NaN    NaN   
19                  NaN               NaN               NaN    NaN   
20                  NaN               NaN               NaN    NaN   
21                  NaN               NaN               NaN    NaN   
22                  NaN               NaN               NaN    NaN   
23                  NaN               NaN               NaN    NaN   
24                  NaN               NaN               NaN    NaN   
25                  NaN               NaN               NaN    NaN   
26                  NaN               NaN               NaN    NaN   
27                  NaN               NaN               NaN    NaN   
28                  NaN               NaN               NaN    NaN   
29                  NaN               NaN               NaN    NaN   
30                  NaN              67.0               NaN    NaN   
31                  NaN               NaN               NaN    NaN   
32                  NaN               NaN               NaN    NaN   
33                  NaN               NaN               NaN    NaN   
34                  NaN               NaN               NaN    NaN   
35                  NaN               NaN               NaN    NaN   
36                  NaN               NaN               NaN    NaN   
37                  NaN               NaN               NaN    NaN   
38                  NaN               NaN               NaN    NaN   
39                  NaN               NaN               NaN    NaN   
40                  NaN               NaN               NaN    NaN   
41                  NaN               NaN               NaN    NaN   
42                  NaN              93.0               NaN    NaN   
43                  NaN               NaN               NaN    NaN   
44                  NaN               NaN               NaN    NaN   
45                  NaN               NaN               NaN    NaN   
46                  NaN               NaN               NaN    NaN   
47                  NaN               NaN               NaN    NaN   
48                  NaN               NaN               NaN    NaN   
49                  NaN               NaN               NaN    NaN   
50                  NaN               NaN               NaN    NaN   
51                  NaN               NaN               NaN    NaN   
52                  NaN               NaN               NaN    NaN   
53                  NaN              68.0               NaN    NaN   
54                  NaN             100.0               NaN    NaN   
55                  NaN               NaN               NaN    NaN   
56                  NaN               NaN               NaN    NaN   
57                  NaN               NaN               NaN    NaN   
58                  NaN               NaN               NaN    NaN   
59                  NaN               NaN               NaN    NaN   
60                  NaN               NaN               NaN    NaN   
61                  NaN               NaN               NaN    NaN   
62                  NaN               NaN               NaN    NaN   
63                  NaN               NaN               NaN    NaN   
64                  NaN               NaN               NaN    NaN   
65                  NaN              62.0               NaN    NaN   
66                  NaN              76.0               NaN    NaN   
67                  NaN               NaN               NaN    NaN   
68                  NaN               NaN               NaN    NaN   
69                  NaN               NaN               NaN    NaN   
70                  NaN               NaN               NaN    NaN   
71                  NaN               NaN               NaN    NaN   
72                  NaN               NaN               NaN    NaN   
73                  NaN               NaN               NaN    NaN   
74                  NaN               NaN               NaN    NaN   
75                  NaN               NaN               NaN    NaN   
76                  NaN               NaN               NaN    NaN   
77                  NaN               NaN               NaN    NaN   
78                  NaN               NaN               NaN    NaN   
79                  NaN               NaN               NaN    NaN   
80                  NaN               NaN               NaN    NaN   
81                  NaN               NaN               NaN    NaN   
82                  NaN               NaN               NaN    NaN   
83                  NaN               NaN               NaN    NaN   
84                  NaN               NaN               NaN    NaN   
85                  NaN               NaN             100.0  100.0   
86                  NaN               NaN               NaN   98.0   
87                  NaN               NaN               NaN   95.0   
88                  NaN               NaN               NaN   85.0   
89                  NaN               NaN               NaN    NaN   
90                  NaN              70.0               NaN   86.0   
91                  NaN               NaN               NaN    NaN   
92                  NaN               NaN               NaN    NaN   
93                  NaN               NaN               NaN    NaN   
94                  NaN               NaN               NaN   89.0   
95                  NaN               NaN               NaN   85.0   
96                  NaN               NaN               NaN    NaN   
97                  NaN               NaN               NaN    NaN   
98                  NaN               NaN               NaN    NaN   
99                  NaN               NaN               NaN    NaN   
100                 NaN               NaN               NaN   83.0   
101                 NaN               NaN               NaN   82.0   
102                 NaN               NaN               NaN    NaN   
103                 NaN               NaN               NaN    NaN   
104                 NaN               NaN               NaN    NaN   
105                 NaN               NaN               NaN    NaN   
106                 NaN               NaN               NaN    NaN   
107                 NaN               NaN               NaN    NaN   
108                 NaN               NaN               NaN    NaN   
109                 NaN               NaN               NaN    NaN   
110                 NaN               NaN               NaN    NaN   
111                 NaN               NaN               NaN    NaN   
112                 NaN               NaN               NaN    NaN   
113                 NaN               NaN               NaN    NaN   
114                 NaN               NaN               NaN   78.0   
115                 NaN               NaN               NaN    NaN   
116                 NaN               NaN               NaN    NaN   
117                 NaN               NaN               NaN    NaN   
118                 NaN               NaN               NaN    NaN   
119                 NaN               NaN               NaN    NaN   
120                 NaN               NaN               NaN    NaN   
121                 NaN               NaN               NaN    NaN   
122                 NaN               NaN               NaN    NaN   
123                 NaN               NaN               NaN    NaN   
124                 NaN               NaN               NaN    NaN   
125                 NaN               NaN               NaN    NaN   
126                 NaN               NaN               NaN    NaN   
127                 NaN               NaN               NaN    NaN   
128                 NaN               NaN               NaN    NaN   
129                 NaN               NaN               NaN    NaN   
130                 NaN               NaN               NaN    NaN   
131                 NaN               NaN               NaN    NaN   
132                 NaN               NaN               NaN    NaN   
133                 NaN               NaN               NaN    NaN   
134                 NaN               NaN               NaN    NaN   
135                 NaN               NaN               NaN    NaN   
136                 NaN               NaN               NaN    NaN   
137                 NaN               NaN               NaN    NaN   
138                 NaN               NaN               NaN    NaN   
139                 NaN               NaN               NaN    NaN   
140                 NaN               NaN               NaN    NaN   
141                 NaN               NaN               NaN    NaN   
142                 NaN               NaN               NaN    NaN   
143                 NaN               NaN               NaN    NaN   
144                 NaN               NaN               NaN    NaN   
145                 NaN               NaN               NaN    NaN   
146                 NaN               NaN               NaN    NaN   
147                 NaN               NaN               NaN    NaN   
148                 NaN               NaN               NaN    NaN   
149                 NaN               NaN               NaN    NaN   
150                 NaN              64.0               NaN    NaN   
151                 NaN               NaN               NaN    NaN   
152                 NaN               NaN               NaN    NaN   
153                 NaN               NaN               NaN    NaN   
154                 NaN               NaN               NaN    NaN   
155                 NaN               NaN               NaN    NaN   
156                 NaN               NaN               NaN    NaN   
157                 NaN               NaN               NaN    NaN   
158                 NaN               NaN               NaN    NaN   
159                 NaN               NaN               NaN    NaN   
160                 NaN               NaN               NaN    NaN   
161                 NaN               NaN               NaN    NaN   
162                 NaN               NaN               NaN    NaN   
163                 NaN               NaN               NaN    NaN   
164                 NaN               NaN               NaN    NaN   
165                 NaN               NaN               NaN    NaN   
166                 NaN               NaN               NaN    NaN   
167                 NaN               NaN               NaN    NaN   
168                 NaN               NaN               NaN    NaN   
169                 NaN               NaN               NaN    NaN   
170                 NaN               NaN               NaN    NaN   
171                 NaN               NaN               NaN    NaN   
172                 NaN               NaN               NaN    NaN   
173                 NaN               NaN               NaN    NaN   
174                 NaN              63.0               NaN    NaN   
175                 NaN               NaN               NaN    NaN   
176                 NaN               NaN               NaN    NaN   
177                 NaN               NaN               NaN    NaN   
178                 NaN               NaN               NaN    NaN   
179                 NaN               NaN               NaN    NaN   
180                 NaN               NaN               NaN    NaN   
181                 NaN               NaN               NaN    NaN   
182                 NaN               NaN               NaN    NaN   
183                 NaN               NaN               NaN    NaN   
184                 NaN               NaN               NaN    NaN   
185                 NaN               NaN               NaN    NaN   
186                 NaN               NaN               NaN    NaN   
187                 NaN               NaN               NaN    NaN   
188                 NaN               NaN               NaN    NaN   
189                 NaN               NaN               NaN    NaN   
190                 NaN               NaN               NaN    NaN   
191                 NaN               NaN               NaN    NaN   
192                 NaN               NaN               NaN    NaN   
193                 NaN               NaN               NaN    NaN   
194                 NaN               NaN               NaN    NaN   
195                 NaN               NaN               NaN    NaN   
196                 NaN               NaN               NaN    NaN   
197                 NaN               NaN               NaN    NaN   
198                 NaN               NaN               NaN    NaN   
199                 NaN               NaN               NaN    NaN   
200                 NaN               NaN               NaN    NaN   
201                 NaN               NaN               NaN    NaN   
202                 NaN               NaN               NaN    NaN   
203                 NaN               NaN               NaN    NaN   
204                 NaN               NaN               NaN    NaN   
205                 NaN               NaN               NaN    NaN   
206                 NaN               NaN               NaN    NaN   
207                 NaN               NaN               NaN    NaN   
208                 NaN               NaN               NaN    NaN   
209                 NaN               NaN               NaN    NaN   
210                 NaN               NaN               NaN    NaN   
211                 NaN               NaN               NaN    NaN   
212                 NaN               NaN               NaN    NaN   
213                 NaN               NaN               NaN    NaN   

     Online Communities  People & Society  Pets & Animals  Real Estate  \
0                   NaN               NaN             NaN          NaN   
1                   NaN               9.0             NaN          NaN   
2                   NaN               NaN             NaN          NaN   
3                   NaN               NaN             NaN          NaN   
4                   NaN               NaN             NaN          NaN   
5                   NaN               NaN             NaN          NaN   
6                   NaN               NaN             NaN          NaN   
7                   NaN               NaN             NaN          NaN   
8                   NaN               NaN             NaN          NaN   
9                   NaN               NaN             NaN          NaN   
10                  NaN               NaN             NaN          NaN   
11                  NaN               NaN             NaN          NaN   
12                  NaN               NaN             NaN          NaN   
13                  NaN               NaN             NaN          NaN   
14                  NaN               NaN             NaN          NaN   
15                  NaN               NaN             NaN          NaN   
16                  NaN               NaN             NaN          NaN   
17                  NaN               NaN             NaN          NaN   
18                  NaN               NaN             NaN          NaN   
19                  NaN               NaN             NaN          NaN   
20                  NaN               NaN             NaN          NaN   
21                  NaN               NaN             NaN          NaN   
22                  NaN               NaN             NaN          NaN   
23                  NaN               NaN             NaN          NaN   
24                  NaN               NaN             NaN          NaN   
25                  NaN               NaN             NaN          NaN   
26                  NaN               NaN             NaN          NaN   
27                  NaN               NaN             NaN          NaN   
28                  NaN               NaN             NaN          NaN   
29                  NaN               NaN             NaN          NaN   
30                  NaN               NaN             NaN          NaN   
31                  NaN               NaN             NaN          NaN   
32                  NaN               NaN             NaN          NaN   
33                  NaN               NaN             NaN          NaN   
34                  NaN               NaN             NaN          NaN   
35                  NaN               NaN             NaN          NaN   
36                  NaN               NaN             NaN          NaN   
37                  NaN               NaN             NaN          NaN   
38                  NaN               NaN             NaN          NaN   
39                  NaN               NaN             NaN          NaN   
40                  NaN               NaN             NaN          NaN   
41                  NaN               NaN             NaN          NaN   
42                  NaN               NaN             NaN          NaN   
43                  NaN               NaN             NaN          NaN   
44                  NaN               NaN             NaN          NaN   
45                  NaN               NaN             NaN          NaN   
46                  NaN               NaN             NaN          NaN   
47                  NaN               NaN             NaN          NaN   
48                  NaN               NaN             NaN          NaN   
49                  NaN               NaN             NaN          NaN   
50                  NaN               NaN             NaN          NaN   
51                  NaN               NaN             NaN          NaN   
52                  NaN               NaN             NaN          NaN   
53                  NaN               NaN             NaN          NaN   
54                  NaN               NaN             NaN          NaN   
55                  NaN               NaN             NaN          NaN   
56                  NaN               NaN             NaN          NaN   
57                  NaN               NaN             NaN          NaN   
58                  NaN               NaN             NaN          NaN   
59                  NaN               NaN             NaN          NaN   
60                  NaN               NaN             NaN          NaN   
61                  NaN               NaN             NaN          NaN   
62                  NaN               NaN             NaN          NaN   
63                  NaN               NaN             NaN          NaN   
64                  NaN               NaN             NaN          NaN   
65                  NaN               NaN             NaN          NaN   
66                  NaN               NaN             NaN          NaN   
67                  NaN               NaN             NaN          NaN   
68                  NaN               NaN             NaN          NaN   
69                  NaN               NaN             NaN          NaN   
70                  NaN               NaN             NaN          NaN   
71                  NaN               NaN             NaN          NaN   
72                  NaN               NaN             NaN          NaN   
73                  NaN               NaN             NaN          NaN   
74                  NaN               NaN             NaN          NaN   
75                  NaN               NaN             NaN          NaN   
76                  NaN               NaN             NaN          NaN   
77                  NaN               NaN             NaN          NaN   
78                  NaN               NaN             NaN          NaN   
79                  NaN               NaN             NaN          NaN   
80                  NaN               NaN             NaN          NaN   
81                  NaN               NaN             NaN          NaN   
82                  NaN               NaN             NaN          NaN   
83                  NaN               NaN             NaN          NaN   
84                  NaN               NaN             NaN          NaN   
85                  NaN               NaN             NaN          NaN   
86                  NaN               NaN             NaN          NaN   
87                  NaN               NaN             NaN          NaN   
88                  NaN               NaN             NaN          NaN   
89                  NaN               NaN             NaN          NaN   
90                  NaN               NaN             NaN          NaN   
91                  NaN               NaN             NaN          NaN   
92                  NaN               NaN             NaN          NaN   
93                  NaN               NaN             NaN          NaN   
94                  NaN               NaN             NaN          NaN   
95                  NaN               NaN             NaN          NaN   
96                  NaN               NaN             NaN          NaN   
97                  NaN               NaN             NaN          NaN   
98                  NaN               NaN             NaN          NaN   
99                  NaN               NaN             NaN          NaN   
100                 NaN               NaN             NaN          NaN   
101                 NaN               NaN             NaN          NaN   
102                 NaN               NaN             NaN          NaN   
103                 NaN               NaN             NaN          NaN   
104                 NaN               NaN             NaN          NaN   
105                 NaN               NaN             NaN          NaN   
106                 NaN               NaN             NaN          NaN   
107                 NaN               NaN             NaN          NaN   
108                 NaN               NaN             NaN          NaN   
109                 NaN               NaN             NaN          NaN   
110                 NaN               NaN             NaN          NaN   
111                 NaN               NaN             NaN          NaN   
112                 NaN               NaN             NaN          NaN   
113                 NaN               NaN             NaN          NaN   
114                 NaN               NaN             NaN          NaN   
115                 NaN               NaN             NaN          NaN   
116                 NaN               NaN             NaN          NaN   
117                 NaN               NaN             NaN          NaN   
118                 NaN               NaN             NaN          NaN   
119                 NaN               NaN             NaN          NaN   
120                 NaN               NaN             NaN          NaN   
121                 NaN               NaN             NaN          NaN   
122                 NaN               NaN             NaN          NaN   
123                 NaN               NaN             NaN          NaN   
124                 NaN               NaN             NaN          NaN   
125                 NaN               NaN             NaN          NaN   
126                 NaN               NaN             NaN          NaN   
127                 NaN               NaN             NaN          NaN   
128                 NaN               NaN             NaN          NaN   
129                 NaN               NaN             NaN          NaN   
130                 NaN               NaN             NaN          NaN   
131                 NaN               NaN             NaN          NaN   
132                 NaN               NaN             NaN          NaN   
133                 NaN               NaN             NaN          NaN   
134                 NaN               NaN             NaN          NaN   
135                 NaN               NaN             NaN          NaN   
136                 NaN               NaN             NaN          NaN   
137                 NaN               NaN             NaN          NaN   
138                 NaN               NaN             NaN          NaN   
139                 NaN               NaN             NaN          NaN   
140                 NaN               NaN             NaN          NaN   
141                 NaN               NaN             NaN          NaN   
142                 NaN               NaN             NaN          NaN   
143                 NaN               NaN             NaN          NaN   
144                 NaN               NaN             NaN          NaN   
145                 NaN               NaN             NaN          NaN   
146                 NaN               NaN             NaN          NaN   
147                 NaN               NaN             NaN          NaN   
148                 NaN               NaN             NaN          NaN   
149                 NaN               NaN             NaN          NaN   
150                 NaN               NaN             NaN          NaN   
151                 NaN               NaN             NaN          NaN   
152                 NaN               NaN             NaN          NaN   
153                 NaN               NaN             NaN          NaN   
154                 NaN               NaN             NaN          NaN   
155                 NaN               NaN             NaN          NaN   
156                 NaN               NaN             NaN          NaN   
157                 NaN               NaN             NaN          NaN   
158                 NaN               NaN             NaN          NaN   
159                 NaN               NaN             NaN          NaN   
160                 NaN               NaN             NaN          NaN   
161                 NaN               NaN             NaN          NaN   
162                 NaN               NaN             NaN          NaN   
163                 NaN               NaN             NaN          NaN   
164                 NaN               NaN             NaN          NaN   
165                 NaN               NaN             NaN          NaN   
166                 NaN               NaN             NaN          NaN   
167                 NaN               NaN             NaN          NaN   
168                 NaN               NaN             NaN          NaN   
169                 NaN               NaN             NaN          NaN   
170                 NaN               NaN             NaN          NaN   
171                 NaN               NaN             NaN          NaN   
172                 NaN               NaN             NaN          NaN   
173                 NaN               NaN             NaN          NaN   
174                 NaN               NaN             NaN          NaN   
175                 NaN               NaN             NaN          NaN   
176                 NaN               NaN             NaN          NaN   
177                 NaN               NaN             NaN          NaN   
178                 NaN               NaN             NaN          NaN   
179                 NaN               NaN             NaN          NaN   
180                 NaN               NaN             NaN          NaN   
181                 NaN               NaN             NaN          NaN   
182                 NaN               NaN             NaN          NaN   
183                 NaN               NaN             NaN          NaN   
184                 NaN               NaN             NaN          NaN   
185                 NaN               NaN             NaN          NaN   
186                 NaN               NaN             NaN          NaN   
187                 NaN               NaN             NaN          NaN   
188                 NaN               NaN             NaN          NaN   
189                 NaN               NaN             NaN          NaN   
190                 NaN               NaN             NaN          NaN   
191                 NaN               NaN             NaN          NaN   
192                 NaN               NaN             NaN          NaN   
193                 NaN               NaN             NaN          NaN   
194                 NaN               NaN             NaN          NaN   
195                 NaN               NaN             NaN          NaN   
196                 NaN               NaN             NaN          NaN   
197                 NaN               NaN             NaN          NaN   
198                 NaN               NaN             NaN          NaN   
199                 NaN               NaN             NaN          NaN   
200                 NaN               NaN             NaN          NaN   
201                 NaN               NaN             NaN          NaN   
202                 NaN               NaN             NaN          NaN   
203                 NaN               NaN             NaN          NaN   
204                 NaN               NaN             NaN          NaN   
205                 NaN               NaN             NaN          NaN   
206                 NaN               NaN             NaN          NaN   
207                 NaN               NaN             NaN          NaN   
208                 NaN               NaN             NaN          NaN   
209                 NaN               NaN             NaN          NaN   
210                 NaN               NaN             NaN          NaN   
211                 NaN               NaN             NaN          NaN   
212                 NaN               NaN             NaN          NaN   
213                 NaN               NaN             NaN          NaN   

     Reference  Science  Shopping  Sports  Travel  
0          NaN      NaN       NaN     NaN     NaN  
1          NaN      NaN       NaN     NaN     NaN  
2          NaN      NaN       NaN     NaN     NaN  
3          NaN      NaN       NaN     NaN     NaN  
4          NaN      NaN       NaN     NaN     NaN  
5          NaN      NaN       NaN     NaN     NaN  
6          NaN      NaN       NaN     NaN     NaN  
7          NaN      NaN       NaN     NaN     NaN  
8          NaN      NaN       NaN     NaN     NaN  
9          NaN      NaN       NaN     NaN     NaN  
10         NaN      NaN       NaN     NaN     NaN  
11         NaN      NaN       NaN     NaN     NaN  
12         NaN      NaN       NaN     NaN     NaN  
13         NaN      NaN       NaN     NaN     NaN  
14         NaN      NaN       NaN     NaN     NaN  
15         NaN      NaN       NaN     NaN     NaN  
16         NaN      NaN       NaN     NaN     NaN  
17         NaN      NaN       NaN     NaN     NaN  
18         NaN      NaN       NaN     NaN     NaN  
19         NaN      NaN       NaN     NaN     NaN  
20         NaN      NaN       NaN     NaN     NaN  
21         NaN      NaN       NaN     NaN     NaN  
22         NaN      NaN       NaN     NaN     NaN  
23         NaN      NaN       NaN     NaN     NaN  
24         NaN      NaN       NaN     NaN     NaN  
25         NaN      NaN       NaN     NaN     NaN  
26         NaN      NaN       NaN     NaN     NaN  
27         NaN      NaN       NaN     NaN     NaN  
28         NaN      NaN       NaN     NaN     NaN  
29         NaN      NaN       NaN     NaN     NaN  
30         NaN      NaN       NaN     NaN     NaN  
31         NaN      NaN       NaN     NaN     NaN  
32         NaN      NaN       NaN     NaN     NaN  
33         NaN      NaN       NaN     NaN     NaN  
34         NaN      NaN       NaN     NaN     NaN  
35         NaN      NaN       NaN     NaN     NaN  
36         NaN      NaN       NaN     NaN     NaN  
37         NaN      NaN       NaN     NaN     NaN  
38         NaN      NaN       NaN     NaN     NaN  
39         NaN      NaN       NaN     NaN     NaN  
40         NaN      NaN       NaN     NaN     NaN  
41         NaN      NaN       NaN     NaN     NaN  
42         NaN      NaN       NaN     NaN     NaN  
43         NaN      NaN       NaN     NaN     NaN  
44         NaN      NaN       NaN     NaN     NaN  
45         NaN      NaN       NaN     NaN     NaN  
46         NaN      NaN       NaN     NaN     NaN  
47         NaN      NaN       NaN     NaN     NaN  
48         NaN      NaN       NaN     NaN     NaN  
49         NaN      NaN       NaN     NaN     NaN  
50         NaN      NaN       NaN     NaN     NaN  
51         NaN      NaN       NaN     NaN     NaN  
52         NaN      NaN       NaN     NaN     NaN  
53         NaN      NaN       NaN     NaN     NaN  
54         NaN      NaN       NaN     NaN     NaN  
55         NaN      NaN       NaN     NaN     NaN  
56         NaN      NaN       NaN     NaN     NaN  
57         NaN      NaN       NaN     NaN     NaN  
58         NaN      NaN       NaN     NaN     NaN  
59         NaN      NaN       NaN     NaN     NaN  
60         NaN      NaN       NaN     NaN     NaN  
61         NaN      NaN       NaN     NaN     NaN  
62         NaN      NaN       NaN     NaN     NaN  
63         NaN      NaN       NaN     NaN     NaN  
64         NaN      NaN       NaN     NaN     NaN  
65         NaN      NaN       NaN     NaN     NaN  
66         NaN      NaN       NaN     NaN     NaN  
67         NaN      NaN       NaN     NaN     NaN  
68         NaN      NaN       NaN     NaN     NaN  
69         NaN      NaN       NaN     NaN     NaN  
70         NaN      NaN       NaN     NaN     NaN  
71         NaN      NaN       NaN     NaN     NaN  
72         NaN      NaN       NaN     NaN     NaN  
73         NaN      NaN       NaN     NaN     NaN  
74         NaN      NaN       NaN     NaN     NaN  
75         NaN      NaN       NaN     NaN     NaN  
76         NaN      NaN       NaN     NaN     NaN  
77         NaN      NaN       NaN     NaN     NaN  
78         NaN      NaN       NaN     NaN     NaN  
79         NaN      NaN       NaN     NaN     NaN  
80         NaN      NaN       NaN     NaN     NaN  
81         NaN      NaN       NaN     NaN     NaN  
82         NaN      NaN       NaN     NaN     NaN  
83         NaN      NaN       NaN     NaN     NaN  
84         NaN      NaN       NaN     NaN     NaN  
85         NaN      NaN       NaN     NaN     NaN  
86         NaN      NaN       NaN     NaN     NaN  
87         NaN      NaN       NaN     NaN     NaN  
88         NaN      NaN       NaN     NaN     NaN  
89         NaN      NaN       NaN     NaN     NaN  
90         NaN      NaN       NaN     NaN     NaN  
91         NaN      NaN       NaN     NaN     NaN  
92         NaN      NaN       NaN     NaN     NaN  
93         NaN      NaN       NaN     NaN     NaN  
94         NaN      NaN       NaN     NaN     NaN  
95         NaN      NaN       NaN     NaN     NaN  
96         NaN      NaN       NaN     NaN     NaN  
97         NaN      NaN       NaN     NaN     NaN  
98         NaN      NaN       NaN     NaN     NaN  
99         NaN      NaN       NaN     NaN     NaN  
100        NaN      NaN       NaN     NaN     NaN  
101        NaN      NaN       NaN     NaN     NaN  
102        NaN      NaN       NaN     NaN     NaN  
103        NaN      NaN       NaN     NaN     NaN  
104        NaN      NaN       NaN     NaN     NaN  
105        NaN      NaN       NaN     NaN     NaN  
106        NaN      NaN       NaN     NaN     NaN  
107        NaN      NaN       NaN     NaN     NaN  
108        NaN      NaN       NaN     NaN     NaN  
109        NaN      NaN       NaN     NaN     NaN  
110        NaN      NaN       NaN     NaN     NaN  
111        NaN      NaN       NaN     NaN     NaN  
112        NaN      NaN       NaN     NaN     NaN  
113        NaN      NaN       NaN     NaN     NaN  
114        NaN      NaN       NaN     NaN     NaN  
115        NaN      NaN       NaN     NaN     NaN  
116        NaN      NaN       NaN     NaN     NaN  
117        NaN      NaN       NaN     NaN     NaN  
118        NaN      NaN       NaN     NaN     NaN  
119        NaN      NaN       NaN     NaN     NaN  
120        NaN      NaN       NaN     NaN     NaN  
121        NaN      NaN       NaN     NaN     NaN  
122        NaN      NaN       NaN     NaN     NaN  
123        NaN      NaN       NaN     NaN     NaN  
124        NaN      NaN       NaN     NaN     NaN  
125        NaN      NaN       NaN     NaN     NaN  
126        NaN      NaN       NaN     NaN     NaN  
127        NaN      NaN       NaN     NaN     NaN  
128        NaN      NaN       NaN     NaN     NaN  
129        NaN      NaN       NaN     NaN     NaN  
130        NaN      NaN       NaN     NaN     NaN  
131        NaN      NaN       NaN     NaN     NaN  
132        NaN      NaN       NaN     NaN     NaN  
133        NaN      NaN       NaN     NaN     NaN  
134        NaN      NaN       NaN     NaN     NaN  
135        NaN      NaN       NaN     NaN     NaN  
136        NaN      NaN       NaN     NaN     NaN  
137        NaN      NaN       NaN     NaN     NaN  
138        NaN      NaN       NaN     NaN     NaN  
139        NaN      NaN       NaN     NaN     NaN  
140        NaN      NaN       NaN     NaN     NaN  
141        NaN      NaN       NaN     NaN     NaN  
142        NaN      NaN       NaN     NaN     NaN  
143        NaN      NaN       NaN     NaN     NaN  
144        NaN      NaN       NaN     NaN     NaN  
145        NaN      NaN       NaN     NaN     NaN  
146        NaN      NaN       NaN     NaN     NaN  
147        NaN      NaN       NaN     NaN     NaN  
148        NaN      NaN       NaN     NaN     NaN  
149        NaN      NaN       NaN     NaN     NaN  
150        NaN      NaN       NaN     NaN    86.0  
151        NaN      NaN       NaN     NaN     NaN  
152        NaN      NaN       NaN     NaN     NaN  
153        NaN      NaN       NaN     NaN     NaN  
154        NaN      NaN       NaN     NaN     NaN  
155        NaN      NaN       NaN     NaN     NaN  
156        NaN      NaN       NaN     NaN     NaN  
157        NaN      NaN       NaN     NaN     NaN  
158        NaN      NaN       NaN     NaN     NaN  
159        NaN      NaN       NaN     NaN     NaN  
160        NaN      NaN       NaN     NaN     NaN  
161        NaN      NaN       NaN     NaN     NaN  
162        NaN      NaN       NaN     NaN    87.0  
163        NaN      NaN       NaN     NaN     NaN  
164        NaN      NaN       NaN     NaN     NaN  
165        NaN      NaN       NaN     NaN     NaN  
166        NaN      NaN       NaN     NaN     NaN  
167        NaN      NaN       NaN     NaN     NaN  
168        NaN      NaN       NaN     NaN     NaN  
169        NaN      NaN       NaN     NaN     NaN  
170        NaN      NaN       NaN     NaN     NaN  
171        NaN      NaN       NaN     NaN     NaN  
172        NaN      NaN       NaN     NaN     NaN  
173        NaN      NaN       NaN     NaN     NaN  
174        NaN      NaN       NaN     NaN     NaN  
175        NaN      NaN       NaN     NaN     NaN  
176        NaN      NaN       NaN     NaN     NaN  
177        NaN      NaN       NaN     NaN     NaN  
178        NaN      NaN       NaN     NaN     NaN  
179        NaN      NaN       NaN     NaN     NaN  
180        NaN      NaN       NaN     NaN     NaN  
181        NaN      NaN       NaN     NaN     NaN  
182        NaN      NaN       NaN     NaN     NaN  
183        NaN      NaN       NaN     NaN     NaN  
184        NaN      NaN       NaN     NaN     NaN  
185        NaN      NaN       NaN     NaN    91.0  
186        NaN      NaN       NaN     NaN   100.0  
187        NaN      NaN       NaN     NaN    93.0  
188        NaN      NaN       NaN     NaN     NaN  
189        NaN      NaN       NaN     NaN     NaN  
190        NaN      NaN       NaN     NaN     NaN  
191        NaN      NaN       NaN     NaN     NaN  
192        NaN      NaN       NaN     NaN     NaN  
193        NaN      NaN       NaN     NaN     NaN  
194        NaN      NaN       NaN     NaN     NaN  
195        NaN      NaN       NaN     NaN     NaN  
196        NaN    100.0       NaN     NaN     NaN  
197        NaN      NaN       NaN     NaN     NaN  
198        NaN      NaN       NaN     NaN     NaN  
199        NaN      NaN       NaN     NaN     NaN  
200        NaN      NaN       NaN     NaN     NaN  
201        NaN      NaN       NaN     NaN     NaN  
202        NaN      NaN       NaN     NaN     NaN  
203        NaN      NaN       NaN     NaN     NaN  
204        NaN      NaN       NaN     NaN     NaN  
205        NaN      NaN       NaN   100.0     NaN  
206        NaN      NaN       NaN     NaN     NaN  
207        NaN      NaN       NaN     NaN     NaN  
208        NaN      NaN       NaN    98.0     NaN  
209        NaN      NaN       NaN     NaN     NaN  
210        NaN      NaN       NaN     NaN     NaN  
211        NaN      NaN       NaN     NaN    86.0  
212        NaN      NaN       NaN     NaN     NaN  
213        NaN      NaN       NaN     NaN     NaN  
In [15]:
s1=df.mean().sort_values(ascending=False)[:10].index
s1
s2=df.mean().sort_values(ascending=False)[10:20].index
s2
s3=df.mean().sort_values(ascending=False)[20:].index
s3
C:\Users\yshal\AppData\Local\Temp\ipykernel_7172\3665298261.py:1: FutureWarning: Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.
  s1=df.mean().sort_values(ascending=False)[:10].index
C:\Users\yshal\AppData\Local\Temp\ipykernel_7172\3665298261.py:3: FutureWarning: Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.
  s2=df.mean().sort_values(ascending=False)[10:20].index
C:\Users\yshal\AppData\Local\Temp\ipykernel_7172\3665298261.py:5: FutureWarning: Dropping of nuisance columns in DataFrame reductions (with 'numeric_only=None') is deprecated; in a future version this will raise TypeError.  Select only valid columns before calling the reduction.
  s3=df.mean().sort_values(ascending=False)[20:].index
Out[15]:
Index(['Online Communities', 'Sports', 'Real Estate', 'Jobs & Education',
       'Finance'],
      dtype='object')
In [16]:
sns.boxplot(data=df[s1])
plt.figure(figsize=(50, 10))
plt.show()
sns.boxplot(data=df[s2])
plt.figure(figsize=(50, 10))
plt.show()
sns.boxplot(data=df[s3])
plt.figure(figsize=(50, 10))
plt.show()
<Figure size 3600x720 with 0 Axes>
<Figure size 3600x720 with 0 Axes>
<Figure size 3600x720 with 0 Axes>

5. Statistical Summary for the data¶

In [17]:
df.describe()
Out[17]:
Arts & Entertainment Autos & Vehicles Beauty & Fitness Books & Literature Business & Industrial Computers & Electronics Finance Food & Drink Games Health Hobbies & Leisure Home & Garden Internet & Telecom Jobs & Education Law & Government News Online Communities People & Society Pets & Animals Real Estate Reference Science Shopping Sports Travel
count 214.000000 214.000000 214.000000 214.000000 214.000000 214.000000 214.00000 214.000000 214.000000 214.000000 214.000000 214.00000 214.000000 214.000000 214.000000 214.000000 214.00000 214.000000 214.000000 214.000000 214.000000 214.000000 214.000000 214.000000 214.000000
mean 59.191589 49.976636 51.845794 62.747664 54.191589 67.406542 27.61215 47.771028 40.841121 41.453271 47.060748 44.64486 65.228972 30.294393 45.168224 46.794393 36.82243 60.841121 41.135514 35.200935 44.560748 54.126168 48.542056 35.579439 40.588785
std 24.216274 28.525492 24.867906 20.190452 21.095484 15.386054 18.78927 27.237590 24.253803 23.679693 22.092445 23.14346 19.432293 15.442222 17.253964 16.556200 27.08041 22.174362 20.163076 22.615417 22.916946 12.992521 22.468666 21.522142 18.491187
min 7.000000 5.000000 7.000000 18.000000 18.000000 29.000000 4.00000 7.000000 4.000000 9.000000 11.000000 9.00000 18.000000 4.000000 9.000000 7.000000 2.00000 9.000000 5.000000 3.000000 8.000000 28.000000 13.000000 3.000000 13.000000
25% 50.000000 22.000000 29.250000 47.000000 38.000000 57.000000 14.00000 20.250000 23.000000 22.000000 27.000000 25.00000 58.000000 21.250000 31.000000 40.000000 16.00000 49.250000 22.000000 17.000000 27.250000 45.000000 29.250000 22.250000 27.000000
50% 62.500000 56.500000 60.000000 69.000000 53.000000 66.000000 22.00000 49.500000 36.000000 34.000000 50.000000 43.00000 66.000000 28.000000 50.500000 47.000000 25.00000 67.000000 44.000000 30.500000 41.000000 54.000000 47.000000 32.000000 36.000000
75% 78.000000 73.000000 71.000000 80.000000 71.500000 79.000000 41.75000 71.000000 59.750000 60.000000 65.000000 61.75000 80.000000 37.000000 58.000000 54.750000 62.00000 76.000000 59.000000 52.000000 63.000000 62.750000 64.000000 49.000000 50.000000
max 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.00000 100.000000 100.000000 100.000000 100.000000 100.00000 100.000000 100.000000 100.000000 100.000000 100.00000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000 100.000000
In [56]:
sns.violinplot(x=None, y=None, hue=None, data=df, order=None, hue_order=None, bw='scott', cut=2, scale='area', scale_hue=True, gridsize=100, width=1.7, inner='box', split=False, dodge=True, orient=None, linewidth=None, color=None, palette=None, saturation=0.75, ax=None)
sns.set(rc={'figure.figsize':(30,18)})

6. Correlation¶

In [18]:
df.corr()
Out[18]:
Arts & Entertainment Autos & Vehicles Beauty & Fitness Books & Literature Business & Industrial Computers & Electronics Finance Food & Drink Games Health Hobbies & Leisure Home & Garden Internet & Telecom Jobs & Education Law & Government News Online Communities People & Society Pets & Animals Real Estate Reference Science Shopping Sports Travel
Arts & Entertainment 1.000000 0.758120 0.722921 0.738013 0.524907 0.628842 0.364468 0.621840 0.845717 0.401251 0.659102 0.513510 0.935147 0.573544 0.774835 0.781499 0.827629 0.927666 0.700757 0.458062 0.457409 0.413464 0.504317 0.454725 0.499470
Autos & Vehicles 0.758120 1.000000 0.891854 0.848690 0.741574 0.139275 0.594715 0.844267 0.446045 0.674652 0.837209 0.756562 0.703639 0.367601 0.785851 0.479947 0.761378 0.788988 0.888288 0.732983 0.693189 0.577650 0.763223 0.589513 0.717883
Beauty & Fitness 0.722921 0.891854 1.000000 0.945464 0.928579 0.135383 0.816296 0.957287 0.337480 0.890478 0.936194 0.932967 0.620776 0.469754 0.887601 0.596267 0.547877 0.856857 0.947841 0.903906 0.891781 0.764087 0.930230 0.807467 0.872716
Books & Literature 0.738013 0.848690 0.945464 1.000000 0.920734 0.211459 0.809052 0.933416 0.318512 0.870236 0.909433 0.902812 0.651316 0.379879 0.887567 0.648837 0.528446 0.850309 0.936361 0.858551 0.900152 0.843573 0.896389 0.770206 0.799871
Business & Industrial 0.524907 0.741574 0.928579 0.920734 1.000000 0.019590 0.918940 0.942083 0.086002 0.975024 0.890657 0.980269 0.422668 0.360830 0.800346 0.492810 0.269904 0.727386 0.898729 0.954507 0.974706 0.878897 0.971429 0.870918 0.881675
Computers & Electronics 0.628842 0.139275 0.135383 0.211459 0.019590 1.000000 -0.110289 -0.010868 0.762013 -0.107384 0.036445 -0.030682 0.771261 0.382775 0.328063 0.654126 0.469691 0.536199 0.067014 -0.116850 -0.032499 0.098240 -0.044044 -0.027170 -0.074129
Finance 0.364468 0.594715 0.816296 0.809052 0.918940 -0.110289 1.000000 0.848966 -0.066750 0.924087 0.799365 0.902559 0.244219 0.268803 0.704465 0.402249 0.121502 0.580767 0.787797 0.892279 0.926058 0.814009 0.892983 0.826376 0.798065
Food & Drink 0.621840 0.844267 0.957287 0.933416 0.942083 -0.010868 0.848966 1.000000 0.207285 0.925527 0.953697 0.953194 0.489799 0.376175 0.833233 0.507471 0.434844 0.795147 0.951687 0.925606 0.923195 0.787160 0.952025 0.822064 0.862230
Games 0.845717 0.446045 0.337480 0.318512 0.086002 0.762013 -0.066750 0.207285 1.000000 -0.042660 0.237684 0.090707 0.850086 0.535917 0.475422 0.671353 0.780527 0.710499 0.295944 0.022535 0.019132 -0.018753 0.078729 0.083858 0.093084
Health 0.401251 0.674652 0.890478 0.870236 0.975024 -0.107384 0.924087 0.925527 -0.042660 1.000000 0.862772 0.967421 0.289003 0.284880 0.742139 0.406259 0.158515 0.643024 0.858737 0.939513 0.982366 0.876676 0.958514 0.855241 0.843109
Hobbies & Leisure 0.659102 0.837209 0.936194 0.909433 0.890657 0.036445 0.799365 0.953697 0.237684 0.862772 1.000000 0.903234 0.531395 0.365977 0.809636 0.498864 0.465639 0.785840 0.944679 0.894271 0.858602 0.737950 0.917586 0.788302 0.876842
Home & Garden 0.513510 0.756562 0.932967 0.902812 0.980269 -0.030682 0.902559 0.953194 0.090707 0.967421 0.903234 1.000000 0.395891 0.363126 0.791867 0.463842 0.280532 0.713943 0.900601 0.973488 0.955176 0.831737 0.985614 0.861797 0.905318
Internet & Telecom 0.935147 0.703639 0.620776 0.651316 0.422668 0.771261 0.244219 0.489799 0.850086 0.289003 0.531395 0.395891 1.000000 0.487379 0.710010 0.769197 0.834913 0.855530 0.582451 0.333695 0.362917 0.359072 0.399060 0.330894 0.367265
Jobs & Education 0.573544 0.367601 0.469754 0.379879 0.360830 0.382775 0.268803 0.376175 0.535917 0.284880 0.365977 0.363126 0.487379 1.000000 0.519816 0.483192 0.336076 0.572723 0.386133 0.358201 0.280620 0.185002 0.369641 0.355125 0.428468
Law & Government 0.774835 0.785851 0.887601 0.887567 0.800346 0.328063 0.704465 0.833233 0.475422 0.742139 0.809636 0.791867 0.710010 0.519816 1.000000 0.793277 0.610636 0.869152 0.831270 0.744073 0.782336 0.685368 0.788627 0.672641 0.709447
News 0.781499 0.479947 0.596267 0.648837 0.492810 0.654126 0.402249 0.507471 0.671353 0.406259 0.498864 0.463842 0.769197 0.483192 0.793277 1.000000 0.610966 0.808955 0.532357 0.370719 0.483428 0.455622 0.453446 0.477402 0.356761
Online Communities 0.827629 0.761378 0.547877 0.528446 0.269904 0.469691 0.121502 0.434844 0.780527 0.158515 0.465639 0.280532 0.834913 0.336076 0.610636 0.610966 1.000000 0.706120 0.535309 0.224890 0.212964 0.179308 0.275594 0.158689 0.255855
People & Society 0.927666 0.788988 0.856857 0.850309 0.727386 0.536199 0.580767 0.795147 0.710499 0.643024 0.785840 0.713943 0.855530 0.572723 0.869152 0.808955 0.706120 1.000000 0.811479 0.637610 0.681071 0.612434 0.697358 0.634416 0.623554
Pets & Animals 0.700757 0.888288 0.947841 0.936361 0.898729 0.067014 0.787797 0.951687 0.295944 0.858737 0.944679 0.900601 0.582451 0.386133 0.831270 0.532357 0.535309 0.811479 1.000000 0.871601 0.865229 0.748670 0.899627 0.781615 0.837463
Real Estate 0.458062 0.732983 0.903906 0.858551 0.954507 -0.116850 0.892279 0.925606 0.022535 0.939513 0.894271 0.973488 0.333695 0.358201 0.744073 0.370719 0.224890 0.637610 0.871601 1.000000 0.925901 0.772817 0.981108 0.862484 0.952108
Reference 0.457409 0.693189 0.891781 0.900152 0.974706 -0.032499 0.926058 0.923195 0.019132 0.982366 0.858602 0.955176 0.362917 0.280620 0.782336 0.483428 0.212964 0.681071 0.865229 0.925901 1.000000 0.891712 0.952756 0.873346 0.820988
Science 0.413464 0.577650 0.764087 0.843573 0.878897 0.098240 0.814009 0.787160 -0.018753 0.876676 0.737950 0.831737 0.359072 0.185002 0.685368 0.455622 0.179308 0.612434 0.748670 0.772817 0.891712 1.000000 0.807115 0.697884 0.663208
Shopping 0.504317 0.763223 0.930230 0.896389 0.971429 -0.044044 0.892983 0.952025 0.078729 0.958514 0.917586 0.985614 0.399060 0.369641 0.788627 0.453446 0.275594 0.697358 0.899627 0.981108 0.952756 0.807115 1.000000 0.874463 0.925093
Sports 0.454725 0.589513 0.807467 0.770206 0.870918 -0.027170 0.826376 0.822064 0.083858 0.855241 0.788302 0.861797 0.330894 0.355125 0.672641 0.477402 0.158689 0.634416 0.781615 0.862484 0.873346 0.697884 0.874463 1.000000 0.822437
Travel 0.499470 0.717883 0.872716 0.799871 0.881675 -0.074129 0.798065 0.862230 0.093084 0.843109 0.876842 0.905318 0.367265 0.428468 0.709447 0.356761 0.255855 0.623554 0.837463 0.952108 0.820988 0.663208 0.925093 0.822437 1.000000
In [16]:
corr_matrix=df.corr(method='pearson')
  
corr_matrix.style.background_gradient(cmap='coolwarm')

#dataplot = sns.heatmap(df.corr(), cmap="YlGnBu", annot=True)
  
#plt.show()
Out[16]:
  Arts & Entertainment Autos & Vehicles Beauty & Fitness Books & Literature Business & Industrial Computers & Electronics Finance Food & Drink Games Health Hobbies & Leisure Home & Garden Internet & Telecom Jobs & Education Law & Government News Online Communities People & Society Pets & Animals Real Estate Reference Science Shopping Sports Travel
Arts & Entertainment 1.000000 0.758120 0.722921 0.738013 0.524907 0.628842 0.364468 0.621840 0.845717 0.401251 0.659102 0.513510 0.935147 0.573544 0.774835 0.781499 0.827629 0.927666 0.700757 0.458062 0.457409 0.413464 0.504317 0.454725 0.499470
Autos & Vehicles 0.758120 1.000000 0.891854 0.848690 0.741574 0.139275 0.594715 0.844267 0.446045 0.674652 0.837209 0.756562 0.703639 0.367601 0.785851 0.479947 0.761378 0.788988 0.888288 0.732983 0.693189 0.577650 0.763223 0.589513 0.717883
Beauty & Fitness 0.722921 0.891854 1.000000 0.945464 0.928579 0.135383 0.816296 0.957287 0.337480 0.890478 0.936194 0.932967 0.620776 0.469754 0.887601 0.596267 0.547877 0.856857 0.947841 0.903906 0.891781 0.764087 0.930230 0.807467 0.872716
Books & Literature 0.738013 0.848690 0.945464 1.000000 0.920734 0.211459 0.809052 0.933416 0.318512 0.870236 0.909433 0.902812 0.651316 0.379879 0.887567 0.648837 0.528446 0.850309 0.936361 0.858551 0.900152 0.843573 0.896389 0.770206 0.799871
Business & Industrial 0.524907 0.741574 0.928579 0.920734 1.000000 0.019590 0.918940 0.942083 0.086002 0.975024 0.890657 0.980269 0.422668 0.360830 0.800346 0.492810 0.269904 0.727386 0.898729 0.954507 0.974706 0.878897 0.971429 0.870918 0.881675
Computers & Electronics 0.628842 0.139275 0.135383 0.211459 0.019590 1.000000 -0.110289 -0.010868 0.762013 -0.107384 0.036445 -0.030682 0.771261 0.382775 0.328063 0.654126 0.469691 0.536199 0.067014 -0.116850 -0.032499 0.098240 -0.044044 -0.027170 -0.074129
Finance 0.364468 0.594715 0.816296 0.809052 0.918940 -0.110289 1.000000 0.848966 -0.066750 0.924087 0.799365 0.902559 0.244219 0.268803 0.704465 0.402249 0.121502 0.580767 0.787797 0.892279 0.926058 0.814009 0.892983 0.826376 0.798065
Food & Drink 0.621840 0.844267 0.957287 0.933416 0.942083 -0.010868 0.848966 1.000000 0.207285 0.925527 0.953697 0.953194 0.489799 0.376175 0.833233 0.507471 0.434844 0.795147 0.951687 0.925606 0.923195 0.787160 0.952025 0.822064 0.862230
Games 0.845717 0.446045 0.337480 0.318512 0.086002 0.762013 -0.066750 0.207285 1.000000 -0.042660 0.237684 0.090707 0.850086 0.535917 0.475422 0.671353 0.780527 0.710499 0.295944 0.022535 0.019132 -0.018753 0.078729 0.083858 0.093084
Health 0.401251 0.674652 0.890478 0.870236 0.975024 -0.107384 0.924087 0.925527 -0.042660 1.000000 0.862772 0.967421 0.289003 0.284880 0.742139 0.406259 0.158515 0.643024 0.858737 0.939513 0.982366 0.876676 0.958514 0.855241 0.843109
Hobbies & Leisure 0.659102 0.837209 0.936194 0.909433 0.890657 0.036445 0.799365 0.953697 0.237684 0.862772 1.000000 0.903234 0.531395 0.365977 0.809636 0.498864 0.465639 0.785840 0.944679 0.894271 0.858602 0.737950 0.917586 0.788302 0.876842
Home & Garden 0.513510 0.756562 0.932967 0.902812 0.980269 -0.030682 0.902559 0.953194 0.090707 0.967421 0.903234 1.000000 0.395891 0.363126 0.791867 0.463842 0.280532 0.713943 0.900601 0.973488 0.955176 0.831737 0.985614 0.861797 0.905318
Internet & Telecom 0.935147 0.703639 0.620776 0.651316 0.422668 0.771261 0.244219 0.489799 0.850086 0.289003 0.531395 0.395891 1.000000 0.487379 0.710010 0.769197 0.834913 0.855530 0.582451 0.333695 0.362917 0.359072 0.399060 0.330894 0.367265
Jobs & Education 0.573544 0.367601 0.469754 0.379879 0.360830 0.382775 0.268803 0.376175 0.535917 0.284880 0.365977 0.363126 0.487379 1.000000 0.519816 0.483192 0.336076 0.572723 0.386133 0.358201 0.280620 0.185002 0.369641 0.355125 0.428468
Law & Government 0.774835 0.785851 0.887601 0.887567 0.800346 0.328063 0.704465 0.833233 0.475422 0.742139 0.809636 0.791867 0.710010 0.519816 1.000000 0.793277 0.610636 0.869152 0.831270 0.744073 0.782336 0.685368 0.788627 0.672641 0.709447
News 0.781499 0.479947 0.596267 0.648837 0.492810 0.654126 0.402249 0.507471 0.671353 0.406259 0.498864 0.463842 0.769197 0.483192 0.793277 1.000000 0.610966 0.808955 0.532357 0.370719 0.483428 0.455622 0.453446 0.477402 0.356761
Online Communities 0.827629 0.761378 0.547877 0.528446 0.269904 0.469691 0.121502 0.434844 0.780527 0.158515 0.465639 0.280532 0.834913 0.336076 0.610636 0.610966 1.000000 0.706120 0.535309 0.224890 0.212964 0.179308 0.275594 0.158689 0.255855
People & Society 0.927666 0.788988 0.856857 0.850309 0.727386 0.536199 0.580767 0.795147 0.710499 0.643024 0.785840 0.713943 0.855530 0.572723 0.869152 0.808955 0.706120 1.000000 0.811479 0.637610 0.681071 0.612434 0.697358 0.634416 0.623554
Pets & Animals 0.700757 0.888288 0.947841 0.936361 0.898729 0.067014 0.787797 0.951687 0.295944 0.858737 0.944679 0.900601 0.582451 0.386133 0.831270 0.532357 0.535309 0.811479 1.000000 0.871601 0.865229 0.748670 0.899627 0.781615 0.837463
Real Estate 0.458062 0.732983 0.903906 0.858551 0.954507 -0.116850 0.892279 0.925606 0.022535 0.939513 0.894271 0.973488 0.333695 0.358201 0.744073 0.370719 0.224890 0.637610 0.871601 1.000000 0.925901 0.772817 0.981108 0.862484 0.952108
Reference 0.457409 0.693189 0.891781 0.900152 0.974706 -0.032499 0.926058 0.923195 0.019132 0.982366 0.858602 0.955176 0.362917 0.280620 0.782336 0.483428 0.212964 0.681071 0.865229 0.925901 1.000000 0.891712 0.952756 0.873346 0.820988
Science 0.413464 0.577650 0.764087 0.843573 0.878897 0.098240 0.814009 0.787160 -0.018753 0.876676 0.737950 0.831737 0.359072 0.185002 0.685368 0.455622 0.179308 0.612434 0.748670 0.772817 0.891712 1.000000 0.807115 0.697884 0.663208
Shopping 0.504317 0.763223 0.930230 0.896389 0.971429 -0.044044 0.892983 0.952025 0.078729 0.958514 0.917586 0.985614 0.399060 0.369641 0.788627 0.453446 0.275594 0.697358 0.899627 0.981108 0.952756 0.807115 1.000000 0.874463 0.925093
Sports 0.454725 0.589513 0.807467 0.770206 0.870918 -0.027170 0.826376 0.822064 0.083858 0.855241 0.788302 0.861797 0.330894 0.355125 0.672641 0.477402 0.158689 0.634416 0.781615 0.862484 0.873346 0.697884 0.874463 1.000000 0.822437
Travel 0.499470 0.717883 0.872716 0.799871 0.881675 -0.074129 0.798065 0.862230 0.093084 0.843109 0.876842 0.905318 0.367265 0.428468 0.709447 0.356761 0.255855 0.623554 0.837463 0.952108 0.820988 0.663208 0.925093 0.822437 1.000000
In [20]:
corr_matrix = df.corr().abs()

#the matrix is symmetric so we need to extract upper triangle matrix without diagonal (k = 1)

sol = (corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))
                  .stack()
                  .sort_values(ascending=False))
for index, value in sol.items():
    print(index,'        correlation is         ', value)
('Home & Garden', 'Shopping')         correlation is          0.9856142433032827
('Health', 'Reference')         correlation is          0.9823657665006492
('Real Estate', 'Shopping')         correlation is          0.9811079149161619
('Business & Industrial', 'Home & Garden')         correlation is          0.9802692000543354
('Business & Industrial', 'Health')         correlation is          0.975024154123002
('Business & Industrial', 'Reference')         correlation is          0.9747063241479733
('Home & Garden', 'Real Estate')         correlation is          0.9734875097852604
('Business & Industrial', 'Shopping')         correlation is          0.9714287069149091
('Health', 'Home & Garden')         correlation is          0.967421092086197
('Health', 'Shopping')         correlation is          0.9585141242441202
('Beauty & Fitness', 'Food & Drink')         correlation is          0.9572870386475957
('Home & Garden', 'Reference')         correlation is          0.9551760564919545
('Business & Industrial', 'Real Estate')         correlation is          0.9545068566386632
('Food & Drink', 'Hobbies & Leisure')         correlation is          0.9536972926915976
('Food & Drink', 'Home & Garden')         correlation is          0.9531936400443121
('Reference', 'Shopping')         correlation is          0.9527559669250604
('Real Estate', 'Travel')         correlation is          0.9521079553916898
('Food & Drink', 'Shopping')         correlation is          0.9520246227824416
('Food & Drink', 'Pets & Animals')         correlation is          0.9516867943180747
('Beauty & Fitness', 'Pets & Animals')         correlation is          0.9478413823036065
('Beauty & Fitness', 'Books & Literature')         correlation is          0.9454640913914782
('Hobbies & Leisure', 'Pets & Animals')         correlation is          0.9446786127817723
('Business & Industrial', 'Food & Drink')         correlation is          0.9420831228997241
('Health', 'Real Estate')         correlation is          0.9395131614149635
('Books & Literature', 'Pets & Animals')         correlation is          0.9363607859956325
('Beauty & Fitness', 'Hobbies & Leisure')         correlation is          0.9361936070618097
('Arts & Entertainment', 'Internet & Telecom')         correlation is          0.9351467343335723
('Books & Literature', 'Food & Drink')         correlation is          0.9334162711039016
('Beauty & Fitness', 'Home & Garden')         correlation is          0.9329665565348819
('Beauty & Fitness', 'Shopping')         correlation is          0.9302299357530961
('Beauty & Fitness', 'Business & Industrial')         correlation is          0.9285789035361203
('Arts & Entertainment', 'People & Society')         correlation is          0.9276661531405818
('Finance', 'Reference')         correlation is          0.9260578006198281
('Real Estate', 'Reference')         correlation is          0.9259013236191542
('Food & Drink', 'Real Estate')         correlation is          0.9256061037418805
('Food & Drink', 'Health')         correlation is          0.92552749589172
('Shopping', 'Travel')         correlation is          0.9250934461860136
('Finance', 'Health')         correlation is          0.9240866548340222
('Food & Drink', 'Reference')         correlation is          0.9231948941515014
('Books & Literature', 'Business & Industrial')         correlation is          0.9207343387325585
('Business & Industrial', 'Finance')         correlation is          0.9189396971430142
('Hobbies & Leisure', 'Shopping')         correlation is          0.9175864032643252
('Books & Literature', 'Hobbies & Leisure')         correlation is          0.909433344705546
('Home & Garden', 'Travel')         correlation is          0.905317643233992
('Beauty & Fitness', 'Real Estate')         correlation is          0.9039061724606983
('Hobbies & Leisure', 'Home & Garden')         correlation is          0.9032344160930096
('Books & Literature', 'Home & Garden')         correlation is          0.902811585203815
('Finance', 'Home & Garden')         correlation is          0.9025590170070068
('Home & Garden', 'Pets & Animals')         correlation is          0.9006013321503961
('Books & Literature', 'Reference')         correlation is          0.9001523983015687
('Pets & Animals', 'Shopping')         correlation is          0.8996270181437042
('Business & Industrial', 'Pets & Animals')         correlation is          0.898729328973663
('Books & Literature', 'Shopping')         correlation is          0.8963890850181597
('Hobbies & Leisure', 'Real Estate')         correlation is          0.8942713112121826
('Finance', 'Shopping')         correlation is          0.8929832126148317
('Finance', 'Real Estate')         correlation is          0.8922785844384813
('Autos & Vehicles', 'Beauty & Fitness')         correlation is          0.89185381345638
('Beauty & Fitness', 'Reference')         correlation is          0.8917813360747052
('Reference', 'Science')         correlation is          0.8917123670077338
('Business & Industrial', 'Hobbies & Leisure')         correlation is          0.8906573657493241
('Beauty & Fitness', 'Health')         correlation is          0.8904778837577906
('Autos & Vehicles', 'Pets & Animals')         correlation is          0.8882881597432668
('Beauty & Fitness', 'Law & Government')         correlation is          0.8876011249971845
('Books & Literature', 'Law & Government')         correlation is          0.887567041179868
('Business & Industrial', 'Travel')         correlation is          0.8816748848268957
('Business & Industrial', 'Science')         correlation is          0.8788970725656865
('Hobbies & Leisure', 'Travel')         correlation is          0.8768418260354317
('Health', 'Science')         correlation is          0.8766760342513227
('Shopping', 'Sports')         correlation is          0.8744632725102227
('Reference', 'Sports')         correlation is          0.8733462245809148
('Beauty & Fitness', 'Travel')         correlation is          0.8727159772866572
('Pets & Animals', 'Real Estate')         correlation is          0.8716008486846336
('Business & Industrial', 'Sports')         correlation is          0.8709182085601931
('Books & Literature', 'Health')         correlation is          0.8702364709174555
('Law & Government', 'People & Society')         correlation is          0.869152331398525
('Pets & Animals', 'Reference')         correlation is          0.8652288329433118
('Health', 'Hobbies & Leisure')         correlation is          0.8627721693854377
('Real Estate', 'Sports')         correlation is          0.8624835372965143
('Food & Drink', 'Travel')         correlation is          0.8622302644871495
('Home & Garden', 'Sports')         correlation is          0.861797069248224
('Health', 'Pets & Animals')         correlation is          0.8587371180786634
('Hobbies & Leisure', 'Reference')         correlation is          0.8586021672633074
('Books & Literature', 'Real Estate')         correlation is          0.8585505323176401
('Beauty & Fitness', 'People & Society')         correlation is          0.8568568238158192
('Internet & Telecom', 'People & Society')         correlation is          0.855530278039392
('Health', 'Sports')         correlation is          0.8552406582047571
('Books & Literature', 'People & Society')         correlation is          0.8503088738393643
('Games', 'Internet & Telecom')         correlation is          0.8500862168826137
('Finance', 'Food & Drink')         correlation is          0.8489655465122588
('Autos & Vehicles', 'Books & Literature')         correlation is          0.8486903503033031
('Arts & Entertainment', 'Games')         correlation is          0.845717125505053
('Autos & Vehicles', 'Food & Drink')         correlation is          0.8442670088117202
('Books & Literature', 'Science')         correlation is          0.8435731013835097
('Health', 'Travel')         correlation is          0.843109070524968
('Pets & Animals', 'Travel')         correlation is          0.8374631149547054
('Autos & Vehicles', 'Hobbies & Leisure')         correlation is          0.8372086098571263
('Internet & Telecom', 'Online Communities')         correlation is          0.8349132225857593
('Food & Drink', 'Law & Government')         correlation is          0.8332332769289778
('Home & Garden', 'Science')         correlation is          0.8317372811629593
('Law & Government', 'Pets & Animals')         correlation is          0.8312701762409397
('Arts & Entertainment', 'Online Communities')         correlation is          0.8276286527741604
('Finance', 'Sports')         correlation is          0.8263755550264462
('Sports', 'Travel')         correlation is          0.8224367699837756
('Food & Drink', 'Sports')         correlation is          0.8220641289066569
('Reference', 'Travel')         correlation is          0.8209877333216811
('Beauty & Fitness', 'Finance')         correlation is          0.8162959069040173
('Finance', 'Science')         correlation is          0.8140088666707056
('People & Society', 'Pets & Animals')         correlation is          0.811479185848839
('Hobbies & Leisure', 'Law & Government')         correlation is          0.8096359427531864
('Books & Literature', 'Finance')         correlation is          0.8090521846056794
('News', 'People & Society')         correlation is          0.8089545348442917
('Beauty & Fitness', 'Sports')         correlation is          0.8074670062820317
('Science', 'Shopping')         correlation is          0.8071149990397849
('Business & Industrial', 'Law & Government')         correlation is          0.8003455213259522
('Books & Literature', 'Travel')         correlation is          0.7998709119497208
('Finance', 'Hobbies & Leisure')         correlation is          0.799364922205839
('Finance', 'Travel')         correlation is          0.7980648419025327
('Food & Drink', 'People & Society')         correlation is          0.7951469807915156
('Law & Government', 'News')         correlation is          0.7932768293606304
('Home & Garden', 'Law & Government')         correlation is          0.7918671519049282
('Autos & Vehicles', 'People & Society')         correlation is          0.7889876857317534
('Law & Government', 'Shopping')         correlation is          0.788627397537182
('Hobbies & Leisure', 'Sports')         correlation is          0.7883016766425058
('Finance', 'Pets & Animals')         correlation is          0.7877972254855636
('Food & Drink', 'Science')         correlation is          0.7871604317869604
('Autos & Vehicles', 'Law & Government')         correlation is          0.7858513642211388
('Hobbies & Leisure', 'People & Society')         correlation is          0.7858404672452718
('Law & Government', 'Reference')         correlation is          0.7823355040217029
('Pets & Animals', 'Sports')         correlation is          0.7816154150472117
('Arts & Entertainment', 'News')         correlation is          0.7814989505301121
('Games', 'Online Communities')         correlation is          0.780526994932319
('Arts & Entertainment', 'Law & Government')         correlation is          0.7748354860577221
('Real Estate', 'Science')         correlation is          0.7728170203741671
('Computers & Electronics', 'Internet & Telecom')         correlation is          0.7712614719947618
('Books & Literature', 'Sports')         correlation is          0.7702063124752673
('Internet & Telecom', 'News')         correlation is          0.7691969650041521
('Beauty & Fitness', 'Science')         correlation is          0.7640868537999127
('Autos & Vehicles', 'Shopping')         correlation is          0.7632230442578519
('Computers & Electronics', 'Games')         correlation is          0.76201309219497
('Autos & Vehicles', 'Online Communities')         correlation is          0.761377940679789
('Arts & Entertainment', 'Autos & Vehicles')         correlation is          0.7581195085256036
('Autos & Vehicles', 'Home & Garden')         correlation is          0.7565617089024087
('Pets & Animals', 'Science')         correlation is          0.748669585108425
('Law & Government', 'Real Estate')         correlation is          0.7440734716956595
('Health', 'Law & Government')         correlation is          0.7421385240768152
('Autos & Vehicles', 'Business & Industrial')         correlation is          0.7415735897599401
('Arts & Entertainment', 'Books & Literature')         correlation is          0.7380125218860598
('Hobbies & Leisure', 'Science')         correlation is          0.7379498899101721
('Autos & Vehicles', 'Real Estate')         correlation is          0.7329833029527882
('Business & Industrial', 'People & Society')         correlation is          0.7273862220996508
('Arts & Entertainment', 'Beauty & Fitness')         correlation is          0.7229211938264755
('Autos & Vehicles', 'Travel')         correlation is          0.7178826461498297
('Home & Garden', 'People & Society')         correlation is          0.7139427258996073
('Games', 'People & Society')         correlation is          0.710499311631322
('Internet & Telecom', 'Law & Government')         correlation is          0.7100104574539954
('Law & Government', 'Travel')         correlation is          0.709447230572526
('Online Communities', 'People & Society')         correlation is          0.7061200452891607
('Finance', 'Law & Government')         correlation is          0.7044651045331781
('Autos & Vehicles', 'Internet & Telecom')         correlation is          0.7036391708938602
('Arts & Entertainment', 'Pets & Animals')         correlation is          0.7007567789401948
('Science', 'Sports')         correlation is          0.6978842973619179
('People & Society', 'Shopping')         correlation is          0.697357634031846
('Autos & Vehicles', 'Reference')         correlation is          0.6931886412126649
('Law & Government', 'Science')         correlation is          0.6853679906829382
('People & Society', 'Reference')         correlation is          0.681070909982525
('Autos & Vehicles', 'Health')         correlation is          0.6746515422413596
('Law & Government', 'Sports')         correlation is          0.6726409371840144
('Games', 'News')         correlation is          0.6713526597896265
('Science', 'Travel')         correlation is          0.6632079637498162
('Arts & Entertainment', 'Hobbies & Leisure')         correlation is          0.6591020588957259
('Computers & Electronics', 'News')         correlation is          0.6541262456352531
('Books & Literature', 'Internet & Telecom')         correlation is          0.6513157286887947
('Books & Literature', 'News')         correlation is          0.6488374431466045
('Health', 'People & Society')         correlation is          0.6430240860271855
('People & Society', 'Real Estate')         correlation is          0.6376103185565891
('People & Society', 'Sports')         correlation is          0.6344160151050356
('Arts & Entertainment', 'Computers & Electronics')         correlation is          0.6288419048615002
('People & Society', 'Travel')         correlation is          0.6235542951828286
('Arts & Entertainment', 'Food & Drink')         correlation is          0.6218402730330432
('Beauty & Fitness', 'Internet & Telecom')         correlation is          0.6207755426859194
('People & Society', 'Science')         correlation is          0.6124336809988394
('News', 'Online Communities')         correlation is          0.6109659040572727
('Law & Government', 'Online Communities')         correlation is          0.6106362939793734
('Beauty & Fitness', 'News')         correlation is          0.5962672370240774
('Autos & Vehicles', 'Finance')         correlation is          0.5947153384011878
('Autos & Vehicles', 'Sports')         correlation is          0.5895132968947393
('Internet & Telecom', 'Pets & Animals')         correlation is          0.5824511088425387
('Finance', 'People & Society')         correlation is          0.5807673547463481
('Autos & Vehicles', 'Science')         correlation is          0.5776498689554058
('Arts & Entertainment', 'Jobs & Education')         correlation is          0.5735440042735306
('Jobs & Education', 'People & Society')         correlation is          0.5727232751733601
('Beauty & Fitness', 'Online Communities')         correlation is          0.5478768666915361
('Computers & Electronics', 'People & Society')         correlation is          0.5361988165599877
('Games', 'Jobs & Education')         correlation is          0.5359169028872408
('Online Communities', 'Pets & Animals')         correlation is          0.5353090529813497
('News', 'Pets & Animals')         correlation is          0.532356821426845
('Hobbies & Leisure', 'Internet & Telecom')         correlation is          0.5313951272806323
('Books & Literature', 'Online Communities')         correlation is          0.5284460951085503
('Arts & Entertainment', 'Business & Industrial')         correlation is          0.5249071229793056
('Jobs & Education', 'Law & Government')         correlation is          0.5198160116822461
('Arts & Entertainment', 'Home & Garden')         correlation is          0.5135103859420184
('Food & Drink', 'News')         correlation is          0.5074713811425848
('Arts & Entertainment', 'Shopping')         correlation is          0.5043172031938086
('Arts & Entertainment', 'Travel')         correlation is          0.4994702705791786
('Hobbies & Leisure', 'News')         correlation is          0.4988639809855843
('Business & Industrial', 'News')         correlation is          0.4928101325005424
('Food & Drink', 'Internet & Telecom')         correlation is          0.489799061348326
('Internet & Telecom', 'Jobs & Education')         correlation is          0.4873787278501055
('News', 'Reference')         correlation is          0.48342782032546217
('Jobs & Education', 'News')         correlation is          0.48319177290301996
('Autos & Vehicles', 'News')         correlation is          0.4799473518921122
('News', 'Sports')         correlation is          0.47740226592201457
('Games', 'Law & Government')         correlation is          0.47542171083304813
('Beauty & Fitness', 'Jobs & Education')         correlation is          0.4697542794801626
('Computers & Electronics', 'Online Communities')         correlation is          0.46969070705511806
('Hobbies & Leisure', 'Online Communities')         correlation is          0.4656388754975921
('Home & Garden', 'News')         correlation is          0.4638424001446399
('Arts & Entertainment', 'Real Estate')         correlation is          0.45806196194533244
('Arts & Entertainment', 'Reference')         correlation is          0.457409040308051
('News', 'Science')         correlation is          0.4556215493314103
('Arts & Entertainment', 'Sports')         correlation is          0.45472521044942
('News', 'Shopping')         correlation is          0.45344619941021486
('Autos & Vehicles', 'Games')         correlation is          0.44604535088965847
('Food & Drink', 'Online Communities')         correlation is          0.43484405178578006
('Jobs & Education', 'Travel')         correlation is          0.4284682654150529
('Business & Industrial', 'Internet & Telecom')         correlation is          0.42266790348524796
('Arts & Entertainment', 'Science')         correlation is          0.4134640882453993
('Health', 'News')         correlation is          0.40625882078515674
('Finance', 'News')         correlation is          0.4022488959334241
('Arts & Entertainment', 'Health')         correlation is          0.401251383154923
('Internet & Telecom', 'Shopping')         correlation is          0.39906034260757517
('Home & Garden', 'Internet & Telecom')         correlation is          0.39589074523897144
('Jobs & Education', 'Pets & Animals')         correlation is          0.3861333632938765
('Computers & Electronics', 'Jobs & Education')         correlation is          0.3827754576593478
('Books & Literature', 'Jobs & Education')         correlation is          0.3798792940971858
('Food & Drink', 'Jobs & Education')         correlation is          0.37617523197141267
('News', 'Real Estate')         correlation is          0.3707194461766557
('Jobs & Education', 'Shopping')         correlation is          0.36964074845763234
('Autos & Vehicles', 'Jobs & Education')         correlation is          0.36760092998419297
('Internet & Telecom', 'Travel')         correlation is          0.36726476718235523
('Hobbies & Leisure', 'Jobs & Education')         correlation is          0.3659766002347885
('Arts & Entertainment', 'Finance')         correlation is          0.3644681254900079
('Home & Garden', 'Jobs & Education')         correlation is          0.3631262487871113
('Internet & Telecom', 'Reference')         correlation is          0.3629171934732676
('Business & Industrial', 'Jobs & Education')         correlation is          0.36082961585741063
('Internet & Telecom', 'Science')         correlation is          0.35907163840203116
('Jobs & Education', 'Real Estate')         correlation is          0.35820140670134265
('News', 'Travel')         correlation is          0.35676116902825994
('Jobs & Education', 'Sports')         correlation is          0.3551253490530317
('Beauty & Fitness', 'Games')         correlation is          0.3374800633337132
('Jobs & Education', 'Online Communities')         correlation is          0.33607587907577485
('Internet & Telecom', 'Real Estate')         correlation is          0.3336947042961324
('Internet & Telecom', 'Sports')         correlation is          0.3308936025528841
('Computers & Electronics', 'Law & Government')         correlation is          0.3280625870775855
('Books & Literature', 'Games')         correlation is          0.3185119979605129
('Games', 'Pets & Animals')         correlation is          0.2959439789074441
('Health', 'Internet & Telecom')         correlation is          0.28900297895999083
('Health', 'Jobs & Education')         correlation is          0.28487962236419156
('Jobs & Education', 'Reference')         correlation is          0.2806203148802085
('Home & Garden', 'Online Communities')         correlation is          0.28053234619632555
('Online Communities', 'Shopping')         correlation is          0.2755942313758345
('Business & Industrial', 'Online Communities')         correlation is          0.26990377920315484
('Finance', 'Jobs & Education')         correlation is          0.2688029216109225
('Online Communities', 'Travel')         correlation is          0.2558550167397859
('Finance', 'Internet & Telecom')         correlation is          0.2442193831743769
('Games', 'Hobbies & Leisure')         correlation is          0.2376838098552056
('Online Communities', 'Real Estate')         correlation is          0.2248903738174285
('Online Communities', 'Reference')         correlation is          0.2129643933678888
('Books & Literature', 'Computers & Electronics')         correlation is          0.2114586490826385
('Food & Drink', 'Games')         correlation is          0.20728450896490497
('Jobs & Education', 'Science')         correlation is          0.18500216385452264
('Online Communities', 'Science')         correlation is          0.17930802419534397
('Online Communities', 'Sports')         correlation is          0.15868881445326755
('Health', 'Online Communities')         correlation is          0.15851543494557135
('Autos & Vehicles', 'Computers & Electronics')         correlation is          0.13927465042627632
('Beauty & Fitness', 'Computers & Electronics')         correlation is          0.13538293328117995
('Finance', 'Online Communities')         correlation is          0.12150207873299122
('Computers & Electronics', 'Real Estate')         correlation is          0.11685049829832862
('Computers & Electronics', 'Finance')         correlation is          0.11028930625153104
('Computers & Electronics', 'Health')         correlation is          0.10738437818645456
('Computers & Electronics', 'Science')         correlation is          0.09824037292640012
('Games', 'Travel')         correlation is          0.09308423402317001
('Games', 'Home & Garden')         correlation is          0.09070658665417707
('Business & Industrial', 'Games')         correlation is          0.08600172377618875
('Games', 'Sports')         correlation is          0.08385778912799594
('Games', 'Shopping')         correlation is          0.0787290221791206
('Computers & Electronics', 'Travel')         correlation is          0.07412927927649676
('Computers & Electronics', 'Pets & Animals')         correlation is          0.06701385389971197
('Finance', 'Games')         correlation is          0.06674998384801475
('Computers & Electronics', 'Shopping')         correlation is          0.04404372880204103
('Games', 'Health')         correlation is          0.04265967773125472
('Computers & Electronics', 'Hobbies & Leisure')         correlation is          0.03644532658120145
('Computers & Electronics', 'Reference')         correlation is          0.03249869526537745
('Computers & Electronics', 'Home & Garden')         correlation is          0.03068177029830149
('Computers & Electronics', 'Sports')         correlation is          0.02717042050466784
('Games', 'Real Estate')         correlation is          0.022535078135905204
('Business & Industrial', 'Computers & Electronics')         correlation is          0.019589741633200285
('Games', 'Reference')         correlation is          0.019132184442038513
('Games', 'Science')         correlation is          0.01875309305699612
('Computers & Electronics', 'Food & Drink')         correlation is          0.010867553010253304

7. Visualizing Trends¶

7.1.Highest correlated¶

7.1.1. Home & Garden and Shopping¶

In [18]:
df[['Home & Garden', 'Shopping']].plot(kind='line', title="Stationary time series", figsize=(30,15), fontsize=12, legend=True)
Out[18]:
<AxesSubplot:title={'center':'Stationary time series'}>

7.1.2. Health and Reference¶

In [23]:
df[['Health', 'Reference']].plot(kind='line', title="Stationary time series", figsize=(30,15), fontsize=12, legend=True)
Out[23]:
<AxesSubplot:title={'center':'Stationary time series'}>

7.2.Lowest correlated¶

7.2.1. Computers & Electronics and Food & Drink¶

In [24]:
df[['Computers & Electronics', 'Food & Drink']].plot(kind='line', title="Stationary time series", figsize=(30,15), fontsize=12, legend=True)
Out[24]:
<AxesSubplot:title={'center':'Stationary time series'}>

7.2.2. Games and Science¶

In [25]:
df[['Games', 'Science']].plot(kind='line', title="Stationary time series", figsize=(30,15), fontsize=12, legend=True)
Out[25]:
<AxesSubplot:title={'center':'Stationary time series'}>

8-Hypothesis Testing¶

8.1.Checking for Autocorrelation¶

In [19]:
#autocorrelation test(using DW)
#H0: no autocorrelation
#H1: Autocorrelation 
from statsmodels.stats.stattools import durbin_watson
from statsmodels.formula.api import ols
In [27]:
#perform Durbin-Watson test
#
for col in df.columns.to_list()[1:]:
    print(col)
    print(durbin_watson(df[col]))
Arts & Entertainment
0.006840145468846642
Autos & Vehicles
0.005959150573804885
Beauty & Fitness
0.006065484029303304
Books & Literature
0.006350292552447477
Business & Industrial
0.008099561838315712
Computers & Electronics
0.004834942210463226
Finance
0.03196046266734352
Food & Drink
0.009955367157344307
Games
0.03141951858794645
Health
0.0066732763097664665
Hobbies & Leisure
0.030823191886611905
Home & Garden
0.010696898398887211
Internet & Telecom
0.004028404693212562
Jobs & Education
0.17294723513396523
Law & Government
0.020949748603016762
News
0.01975202283181273
Online Communities
0.005849486069665117
People & Society
0.007804799728838958
Pets & Animals
0.01903229472867837
Real Estate
0.014052054347797032
Reference
0.006984031177579565
Science
0.018591067417510057
Shopping
0.00605603920325081
Sports
0.03643753179422238
Travel
0.020694243318977675

8.2.Checking for Stationarity¶

In [58]:
#Testing for Stationarity using Dicky-Fuller test
#H0=non-stationary
#H1=stationary
#p-value > 0.05: Fail to reject the null hypothesis (H0)
#p-value <= 0.05: Reject the null hypothesis (H0)
from statsmodels.tsa.stattools import adfuller
for col in df.columns.to_list()[1:]:
    X =df[col].values
    result = adfuller(X)
    print(col)
    print('ADF Statistic: %f' % result[0])
    print('p-value: %f' % result[1])
    print('Critical Values:')
    for key, value in result[4].items():
        print('\t%s: %.3f' % (key, value))
Arts & Entertainment
ADF Statistic: -2.296748
p-value: 0.173019
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.574
Autos & Vehicles
ADF Statistic: -1.697441
p-value: 0.432431
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.575
Beauty & Fitness
ADF Statistic: -0.832516
p-value: 0.809384
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.574
Books & Literature
ADF Statistic: -1.929601
p-value: 0.318266
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.575
Business & Industrial
ADF Statistic: -0.279130
p-value: 0.928409
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.575
Computers & Electronics
ADF Statistic: -2.245727
p-value: 0.190069
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.574
Finance
ADF Statistic: -0.712716
p-value: 0.843428
Critical Values:
	1%: -3.462
	5%: -2.875
	10%: -2.574
Food & Drink
ADF Statistic: -0.690455
p-value: 0.849206
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.574
Games
ADF Statistic: -1.701121
p-value: 0.430535
Critical Values:
	1%: -3.464
	5%: -2.876
	10%: -2.575
Health
ADF Statistic: 2.085393
p-value: 0.998774
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.574
Hobbies & Leisure
ADF Statistic: -1.179859
p-value: 0.682199
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.575
Home & Garden
ADF Statistic: -0.199315
p-value: 0.938603
Critical Values:
	1%: -3.464
	5%: -2.876
	10%: -2.575
Internet & Telecom
ADF Statistic: -2.622464
p-value: 0.088443
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.574
Jobs & Education
ADF Statistic: -3.085475
p-value: 0.027647
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.575
Law & Government
ADF Statistic: -1.861125
p-value: 0.350564
Critical Values:
	1%: -3.462
	5%: -2.876
	10%: -2.574
News
ADF Statistic: -2.838552
p-value: 0.052974
Critical Values:
	1%: -3.462
	5%: -2.875
	10%: -2.574
Online Communities
ADF Statistic: -1.832887
p-value: 0.364260
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.575
People & Society
ADF Statistic: -2.397018
p-value: 0.142580
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.575
Pets & Animals
ADF Statistic: -1.521498
p-value: 0.522851
Critical Values:
	1%: -3.462
	5%: -2.875
	10%: -2.574
Real Estate
ADF Statistic: -0.505268
p-value: 0.890984
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.574
Reference
ADF Statistic: 1.067344
p-value: 0.994928
Critical Values:
	1%: -3.464
	5%: -2.876
	10%: -2.575
Science
ADF Statistic: -0.274407
p-value: 0.929052
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.574
Shopping
ADF Statistic: -0.340683
p-value: 0.919542
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.574
Sports
ADF Statistic: -0.672077
p-value: 0.853850
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.575
Travel
ADF Statistic: -1.286414
p-value: 0.635365
Critical Values:
	1%: -3.463
	5%: -2.876
	10%: -2.574

Dimentionality Reduction¶

In [21]:
#dimentionality reduction
from sklearn.ensemble import RandomForestRegressor
df1=df.drop(['Science'], axis=1)
model = RandomForestRegressor(random_state=1, max_depth=10)
df2=pd.get_dummies(df1)
model.fit(df2,df.Science)
Out[21]:
RandomForestRegressor(max_depth=10, random_state=1)
In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook.
On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.
RandomForestRegressor(max_depth=10, random_state=1)
In [74]:
sns.set(rc={'figure.figsize':(11.7,8.27)})
features = df2.columns
importances = model.feature_importances_
indices = np.argsort(importances)[-15:]  # top 10 features
plt.title('Feature Importances')
plt.barh(range(len(indices)), importances[indices], color='b', align='center')
plt.yticks(range(len(indices)), [features[i] for i in indices])
plt.xlabel('Relative Importance')
plt.show()

ACF and PACF plots¶

In [85]:
#Plot ACF
from matplotlib import pyplot
from statsmodels.graphics.tsaplots import plot_acf
from statsmodels.graphics.tsaplots import plot_pacf
sns.set(rc={'figure.figsize':(4,4)})
lag='11'
cl=95
for col in df.columns.to_list()[1:]:
    plot_acf(df[col],lags=lag,alpha=round((100-cl)/100,2),use_vlines=True,adjusted=False, missing='none', title="Autocorrelation of " + col)
pyplot.show()
In [84]:
#Plot PACF
from matplotlib import pyplot
from statsmodels.graphics.tsaplots import plot_acf
from statsmodels.graphics.tsaplots import plot_pacf
lag='11'
cl=95
for col in df.columns.to_list()[1:]:
    plot_pacf(df[col],lags=lag,alpha=round((100-cl)/100,2),use_vlines=True, title=' Partial Autocorrelation of '+col)
    pyplot.show()

Seasonal Decomposition¶

In [44]:
from random import randrange
from pandas import Series
from matplotlib import pyplot
from statsmodels.tsa.seasonal import seasonal_decompose
sns.set(rc={'figure.figsize':(11.7,8.27)})
# df1=df['Arts & Entertainment']
for col in df.columns.to_list()[1:]:
#     print(col)
    df1=df[col]
    result = seasonal_decompose(df1, model='multiplicative', period=6)
    result.plot()
    pyplot.show()
    
    
In [ ]:
 
In [ ]: